主要内容

evalclusters

评估的集群解决方案金宝搏官方网站

描述

例子

伊娃= evalclusters (x,clust,标准)创建一个集群评价对象包含的数据用来评估最优数量的数据集群。

伊娃= evalclusters (x,clust,标准,名称,值)使用附加选项创建一个集群评价对象指定的一个或多个参数名称-值对。

例子

全部折叠

评估最优数量的集群使用Calinski-Harabasz集群评价标准。

加载示例数据。

负载fisheriris

数据包含的萼片和花瓣长度和宽度测量三种虹膜花。

评估最优数量的集群使用Calinski-Harabasz标准。集群的数据使用kmeans

rng (“默认”)%的再现性伊娃= evalclusters(量,“kmeans”,“CalinskiHarabasz”,“中”1:6)
伊娃= CalinskiHarabaszEvaluation属性:NumObservations: 150 InspectedK: (1 2 3 4 5 6) CriterionValues:[南513.9245 561.6278 530.4871 456.1279 469.5068]OptimalK: 3

OptimalK值表示,基于Calinski-Harabasz标准,最优数量的集群是三。

使用一个输入矩阵提出了集群解决方案评估最优数量的集群。金宝搏官方网站

加载示例数据。

负载fisheriris;

数据包含的萼片和花瓣长度和宽度测量三种虹膜花。

使用kmeans创建一个输入矩阵提出的集群解决方案的花萼长度测量,使用1,2,3,4,5,6集群。金宝搏官方网站

clust = 0(大小(量,1),6);i = 1:6 clust (:, i) = kmeans(量,我,“emptyaction”,“单”,“复制”5);结束

每一行的clust对应于一个花萼长度测量。每个六列对应于一个包含1到6集群的集群解决方案。

评估最优数量的集群使用Calinski-Harabasz标准。

伊娃= evalclusters (clust量,“CalinskiHarabasz”)
伊娃= CalinskiHarabaszEvaluation属性:NumObservations: 150 InspectedK: (1 2 3 4 5 6) CriterionValues:[南513.9245 561.6278 530.4871 456.1279 469.5068]OptimalK: 3

OptimalK值表示,基于Calinski-Harabasz标准,最优数量的集群是三。

使用一个函数处理指定聚类算法,然后评估最优数量的集群。

加载示例数据。

负载fisheriris;

数据包含的萼片和花瓣长度和宽度测量三种虹膜花。

使用一个函数处理指定聚类算法。

myfunc = @ (X, K) (kmeans (X, K,“emptyaction”,“单”,“复制”5));

评估的最优数量的集群使用Calinski-Harabasz花萼长度数据标准。

伊娃= evalclusters (myfunc量,“CalinskiHarabasz”,“中”[1:6])
伊娃= CalinskiHarabaszEvaluation属性:NumObservations: 150 InspectedK: (1 2 3 4 5 6) CriterionValues:[南513.9245 561.6278 530.4871 456.1279 469.5068]OptimalK: 3

OptimalK值表示,基于Calinski-Harabasz标准,最优数量的集群是三。

输入参数

全部折叠

输入数据,指定为一个N——- - - - - -P矩阵。N是观测的数量,和P是变量的数量。

数据类型:|

聚类算法,指定为以下之一。

“kmeans” 集群中的数据x使用kmeans聚类算法,“EmptyAction”设置为“单”“复制”设置为5
“链接” 集群中的数据x使用clusterdata烧结的聚类算法,“链接”设置为“病房”
“gmdistribution” 集群中的数据x使用gmdistribution高斯混合分布算法“SharedCov”设置为真正的“复制”设置为5

如果标准“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您可以指定一个聚类算法使用函数处理。函数必须的形式C = clustfun(数据、K),在那里数据是数据集中,K是集群的数量。的输出clustfun必须是下列之一:

  • 一个整数向量代表集群指数每观察数据。必须有K独特的价值观在这个向量。

  • 一个数字n——- - - - - -K的得分矩阵n观察和K类。在这种情况下,集群指数对每个观察确定每一行最大的得分值。

如果标准“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您还可以指定clust作为一个n——- - - - - -K矩阵包含提出的集群解决方案。金宝搏官方网站n的观测样本数据,然后呢K提出的集群解决方案的数量。金宝搏官方网站列j包含集群指数为每个Nj集群解决方案。

数据类型:||字符|字符串|function_handle

聚类评价标准,指定为以下之一。

“CalinskiHarabasz” 创建一个CalinskiHarabaszEvaluation聚类评价对象包含Calinski-Harabasz索引值。有关更多信息,请参见Calinski-Harabasz标准
“DaviesBouldin” 创建一个DaviesBouldinEvaluation集群包含Davies-Bouldin索引值的评价对象。有关更多信息,请参见Davies-Bouldin标准
“差距” 创建一个GapEvaluation集群评价对象包含值差距标准。有关更多信息,请参见空白值
“剪影” 创建一个SilhouetteEvaluation集群评价对象包含轮廓值。有关更多信息,请参见轮廓的价值和标准

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“中”,[1:5],“距离”,“cityblock”指定测试1,2,3,4,5集群使用街区距离度量。

对所有标准

全部折叠

集群的数量来评估列表,指定为逗号分隔组成的“中”和一个向量的正整数的值。您必须指定clust是一个聚类算法的名字或一个函数处理。当标准“差距”,clust必须是一个特征向量,一个字符串标量,或一个函数处理,你必须指定吗

例子:“中”,[1:6]

数据类型:|

轮廓和差距

全部折叠

用于计算的距离度量准则值,指定为逗号分隔组成的“距离”和一个以下。

“sqEuclidean” 平方欧氏距离
“欧几里得” 欧氏距离。这个选项是无效的kmeans聚类算法。
“cityblock” 的绝对差异
的余弦 1 -之间的夹角的余弦值点(视为向量)
“相关” 1 -样本点之间的相关性(视为序列值)
“汉明” 不同比例的坐标。这个选项是唯一有效的轮廓标准。
“Jaccard” 不同比例的非零坐标。这个选项是唯一有效的轮廓标准。

每个距离度量的详细信息,请参阅pdist

您还可以指定一个函数使用的距离度量函数处理。表单的功能必须的距离d2 = distfun (XI, XJ),在那里是1 -n向量对应一个单行的输入矩阵X,XJ是一个2——- - - - - -n矩阵对应于多个行Xdistfun必须返回一个21的向量距离d2,他的k元素之间的距离XJ (k,:)

距离只接受一个函数处理聚类算法clust接受一个函数处理的距离度量。例如,kmeans聚类算法不接受一个函数处理的距离度量。因此,如果您使用kmeans算法,然后指定一个函数处理距离,软件错误。

  • 如果标准“剪影”,您还可以指定距离作为输出向量函数创建的pdist

  • clust“kmeans”“gmdistribution”,evalclusters使用指定的距离度量距离集群数据。

  • 如果clust“链接”,距离要么是“sqEuclidean”“欧几里得”,然后使用欧氏距离的聚类算法和沃德联系。

  • 如果clust“链接”距离其他指标,聚类算法使用指定的距离度量和平均链接。

  • 在所有其他情况下,在指定的距离度量距离必须匹配中使用的距离度量聚类算法来获取有意义的结果。

例子:“距离”,“欧几里得”

数据类型:||字符|字符串|function_handle

仅供轮廓

全部折叠

先验概率为每个集群中,指定为逗号分隔组成的“ClusterPriors”和一个以下。

“经验” 计算的集群解决方案的整体轮廓值平均轮廓值点。每个集群有助于整体轮廓价值比例大小。
“平等” 计算的集群解决方案的整体轮廓值平均每个集群内所有点的轮廓值,然后平均这些值在所有集群。每个集群同样有助于整体轮廓值,无论其大小。

例子:“ClusterPriors”、“经验”

仅供差距

全部折叠

参考数据集产生的参考数量分布ReferenceDistribution,指定为逗号分隔两人组成的“B”和一个正整数价值。

例子:“B”, 150年

数据类型:|

参考数据生成方法,指定为逗号分隔组成的“ReferenceDistributions”和一个以下。

主成分分析的 生成参考数据均匀分布在一个箱与主成分的数据矩阵x
“统一” 生成参考数据统一在每个特性的数据矩阵x

例子:“ReferenceDistribution”、“制服”

方法选择最优数量的集群,指定为逗号分隔组成的“SearchMethod”和一个以下。

“globalMaxSE”

评估每个提议的集群和选择的最小数量的集群满意

差距 ( K ) G 一个 P 一个 X SE ( G 一个 P 一个 X ) ,

在哪里K是集群的数量差距(K)的差距值集群解决方案K集群,GAPMAX是最大的差距值和SE (GAPMAX)是标准误差值对应于最大的差距。

“firstMaxSE”

评估每个提议的集群和选择的最小数量的集群满意

差距 ( K ) 差距 ( K + 1 ) SE ( K + 1 ) ,

在哪里K是集群的数量差距(K)的差距值集群解决方案K集群和SE (K+ 1)的标准误差是集群解决方案K+ 1集群。

例子:“SearchMethod”、“globalMaxSE”

输出参数

全部折叠

聚类评价数据,作为聚类评价对象返回。

版本历史

介绍了R2013b