层次聚类(hierarchical clustering)

如图所示为层次聚类的基本算法流程：

初始化每个样本独自一个聚类。选取相似度最高的聚类合并，重复操作直到最小聚类数或相似度小于某阈值。

层次聚类类似于构建树的过程，因此在数据结构上可优先选取二叉树结构。

聚类相似度

各种距离计算不再赘述，而基于距离描述的相似度有以下几种方式：

Single Linkage $dist_{ij} = min\{\ enum(dist(m, n))\ \}, m \in C_i, n \in C_j$ 即取两聚类最近邻样本聚类作为两聚类的距离，受极端值影响较大，可能两聚类因为偶然离得比较近的两个点而被合并，导致最终得到的大聚类中的点分布较为松散
Complete Linkage $dist_{ij} = max\{\ enum(dist(m, n))\ \}, m \in C_i, n \in C_j$ 即取两聚类相距最远样本作为两聚类距离，与single linkage完全相反
Average Linkage $dist_{ij} = avg\{\ enum(dist(m, n))\ \}, m \in C_i, n \in C_j$ 即取两聚类之间两两样本平均距离，平均值计算总是被诟病受极端值影响较大，因此实际可采用中位数估计一定程度抵消该种弊病。

见github主页