主要内容

剪影值

包:clustering.evaluation
超类:ClusterCriterion.

轮廓准则聚类评价对象

描述

剪影值是由样本数据、聚类数据和剪影准则值组成的对象,用于评价最优聚类数。创建轮廓准则聚类评价对象evalclusters

建设

伊娃= evalclusters (xclust、“剪影”)创建轮廓准则聚类评价对象。

伊娃= evalclusters (xclust“轮廓”,名称,值使用由一个或多个名称-值对参数指定的附加选项创建轮廓准则聚类评估对象。

输入参数

展开全部

输入数据,指定为N-经过-P矩阵。N是观察的次数,和P是变量的数量。

数据类型:|双倍的

聚类算法,指定为以下之一。

“kmeans” 将数据聚在x使用威彻斯聚类算法,具有“EmptyAction”设置为“单”“复制”设置为5
“链接” 将数据聚在x使用clusterdata.聚类算法,具有“链接”设置为“病房”
“gmdistribution” 将数据聚在x使用gmdistribution高斯混合分布算法,具有“SharedCov”设置为真正的“复制”设置为5

如果标准“CalinskiHarabasz”'daviesbouldin',或'轮廓',您可以使用函数处理.该函数必须是表单c = clustfun(数据,k), 在哪里数据数据是要聚集的吗K是集群的数量。的输出clustfun必须是以下之一:

  • 表示中每个观察的聚类索引的整数向量数据.必须有K这个向量的唯一值。

  • 一个数字n-经过-K分数矩阵n观察和K类。在这种情况下,每个观察的聚类索引是通过取每一行中最大的得分值来确定的。

如果标准“CalinskiHarabasz”'daviesbouldin',或'轮廓',也可以指定clust作为一个n-经过-K矩阵包含所提出的聚类解决方案。金宝搏官方网站n是样本数据中的观察数,和K是提出的集群解决方案的数量。金宝搏官方网站列j包含每个每个的群集指数N要点在j集群解决方案。

数据类型:|双倍的|char|字符串|function_handle

名称-值对的观点

指定可选的逗号分隔对名称,值论点。的名字参数名和价值是对应的值。的名字必须出现在引号内。您可以按如下顺序指定几个名称和值对参数name1,value1,...,namen,valuen

例子:“中”,[1:5],“距离”,“cityblock”指定使用城市街区距离度量测试1、2、3、4和5个集群。

每个集群的先验概率,指定为逗号分隔的对,由“ClusterPriors”下面是其中之一。

“经验” 通过对所有点的轮廓值进行平均来计算群集解决方案的整体轮廓值。每个集群将整体轮廓值与其大小成比例地贡献。
'平等的' 通过对每个簇内所有点的轮廓值进行平均,然后对所有簇的轮廓值进行平均,来计算集群解决方案的总体轮廓值。无论大小,每个簇对总体轮廓值的贡献是相等的。

例子:“ClusterPriors”、“经验”

用于计算标准值的距离度量指定为逗号分隔的对“距离”下面是其中之一。

'sqeuclidean' 平方欧氏距离
'euclidean' 欧氏距离。此选项对威彻斯聚类算法。
“cityblock” 绝对差的和
的余弦 1减去点间夹角的余弦值(作为向量处理)
'相关性' 1减去点之间的样本相关性(作为值序列处理)
“汉明” 不同的坐标百分比。此选项仅对轮廓标准。
“Jaccard” 不同的非零坐标的百分比。此选项仅对轮廓标准。

有关每个距离度量的详细信息,请参见pdist

也可以使用函数处理.距离函数必须是这种形式d2 = distfun(xi,xj), 在哪里西是1 -n对应于输入矩阵单行的向量X,XJ是一个2-经过-n矩阵对应于多行Xdistfun必须返回一个2-1-1距离矢量d2,他的k元素是之间的距离西XJ(k,:)

距离仅在聚类算法时接受函数句柄clust接受函数句柄作为距离度量。例如,威彻斯聚类算法不接受函数句柄作为距离度量。因此,如果您使用威彻斯算法,然后指定一个函数句柄距离,软件错误。

  • 如果标准'轮廓',也可以指定距离作为由函数创建的输出矢量pdist

  • clust“kmeans”“gmdistribution”evalclusters使用指定的距离度量距离群集数据。

  • 如果clust“链接”,距离要么是'sqeuclidean''euclidean',然后利用欧式距离和Ward链接进行聚类。

  • 如果clust“链接”距离是任何其他指标,那么聚类算法使用指定的距离度量和平均链接。

  • 在所有其他情况下,指定的距离度量距离必须匹配在聚类算法中使用的距离度量,以获得有意义的结果。

例子:“距离”,“欧几里得”

数据类型:|双倍的|char|字符串|function_handle

要计算的集群数量的列表,指定为逗号分隔的对,由'klist'一个正整数的向量。您必须指定klist.什么时候clust是群集算法名或函数句柄。当标准“差距”clust必须是字符向量、字符串标量或函数句柄,并且必须指定klist.

例子:“中”,[1:6]

数据类型:|双倍的

属性

ClusteringFunction

聚类算法用于聚类输入数据,存储为有效的聚类算法名或函数句柄。如果在输入中提供了聚类解决方案,金宝搏官方网站ClusteringFunction是空的。

ClusterPriors

每个集群的先验概率,存储为有效的先验概率名称。

ClusterSilhouettes

对应于每个拟议的簇数的轮廓值InspectedK,存储为小区的矢量阵列。

标准名称

用于聚类评估的标准名称,存储为有效的标准名称。

CriterionValues

中每个建议簇数对应的判据值InspectedK,以数值向量的形式存储。

距离

用于聚类数据的距离度量,存储为有效的距离度量名称。

InspectedK

用于计算标准值的建议簇的数量列表,存储为正整数值的向量。

丢失的

被排除数据的逻辑标志,存储为逻辑值的列向量。如果丢失的=真正的,则得到数据矩阵中相应的值x不用于聚类解决方案。

NumObservations

数据矩阵中的观察数X,减去丢失的()值X,存储为正整数值。

OptimalK

最佳数量的群集,存储为正整数值。

最适条件

对应的最佳聚类解决方案OptimalK,存储为正整数值的列向量。如果在输入中提供了聚类解决方案,金宝搏官方网站最适条件是空的。

X

用于聚类的数据,以数值矩阵的形式存储。

方法

继承的方法

addk. 评估额外数量的群集
袖珍的 紧凑型聚类评估对象
情节 绘制聚类评价对象标准值

例子

全部折叠

利用剪影聚类评价准则评价最优聚类数。

从具有不同参数值的三个多元分布中生成包含随机数的样本数据。

RNG('默认');重复性的%mu1 = [2 2];Sigma1 = [0.9 -0.0255;-0.0255 0.9];mu2 = [5 5];Sigma2 = [0.5 0;0 0.3];mu3 = [-2,-2];sigma3 = [1 0;0 0.9];n = 200; X = [mvnrnd(mu1,sigma1,N);...mvnrnd (mu2 sigma2 N);...mvnrnd (mu3 sigma3 N));

使用轮廓标准评估最佳簇数。使用数据威彻斯

e = Explusters(x,“kmeans”'轮廓''klist'[1:6])
E =带有物业的剪影:NumObServations:600检测:[1 2 3 4 5 6]标准值:[NaN 0.8055 0.8551 0.8551 0.7155 0.6071 0.6232] Optimalk:3

OptimalK值表明,基于轮廓准则,最优聚类数为3个。

绘制轮廓判据值的每个数目的聚类测试。

图;情节(E)

图中包含一个轴。坐标轴包含两个line类型的对象。

该图表明,最高轮廓值发生在三个集群中,表明群集的最佳数量是三个。

创建分组散点图,以直观地检查建议的集群。

图;gscatter (X (: 1) X (:, 2), E。最适条件,“篮板”“xod”

图中包含一个轴。坐标轴包含3个类型为line的对象。这些物体代表1 2 3。

图中显示了数据中的三个不同的簇:簇1在左下角,簇2在右上角,簇3在图的中心附近。

更多关于

展开全部

参考

[1] Kaufman L.和P. J. Rouseuw。在数据中寻找组:聚类分析导论.Hoboken,NJ:John Wiley&Sons,Inc。,1990年。

剪影:解释和验证聚类分析的图形辅助。计算与应用数学杂志.第20卷,第1期,1987年,第53-65页。