聚类分析根据数据点之间的相似性将数据组织成组。有时数据包含表示集群适当数量的自然划分。其他时候,数据不包含自然划分,或者自然划分未知。在这种情况下,需要确定分组数据的最佳集群数量。
为了确定数据是否适合特定数量的集群,可以使用不同的评估标准(如间隙或轮廓)计算索引值。通过创建树状图来显示层次二叉簇树来可视化集群。优化叶片,以最大限度地增加相邻叶片之间的相似性。对于每个组具有多个测量值的分组数据,创建基于使用多变量方差分析(MANOVA)计算的组平均值的树状图。
CalinskiHarabaszEvaluation |
Calinski-Harabasz准则聚类评价对象 |
DaviesBouldinEvaluation |
Davies-Bouldin准则聚类评价对象 |
GapEvaluation |
差距准则聚类评价对象 |
SilhouetteEvaluation |
轮廓准则聚类评价对象 |
这个例子展示了如何使用evalclusters
。