主要内容

evallusters.

评估集群解决方案金宝搏官方网站

描述

例子

eva.= Expluckers(X克星标准创建包含用于评估最佳数据集群数量的数据的群集评估对象。

eva.= Expluckers(X克星标准名称,价值使用一个或多个名称值对参数指定的其他选项创建群集评估对象。

例子

全部收缩

使用Calinski-Harabasz聚类评估标准评估最佳群集数。

加载样本数据。

加载渔民;

数据包括来自三种虹膜花的萼片和花瓣的长度和宽度测量。

使用Calinski-Harabasz标准评估最佳簇数。使用数据威彻斯

RNG('默认');重复性的%EVA = EVACKCLUSTERS(MEAS,'kmeans''calinskiharabasz''klist',[1:6])
EVA = CalinskiharabaszEvaluation具有属性:NumObservations:150检测结果:[1 2 3 4 5 6]标准值:[INF 513.9245 561.6278 530.4871 456.1279 469.5068] Optimalk:1

优惠值表示,基于Calinski-Harabasz标准,最佳群集数是三个。

使用所提出的聚类解决方案的输入矩阵来评估最佳簇数。金宝搏官方网站

加载样本数据。

加载渔民;

数据包括来自三种虹膜花的萼片和花瓣的长度和宽度测量。

威彻斯为萼片长度测量创建所提出的聚类解决方案的输入矩阵,使用1,2,3,4,5和6簇。金宝搏官方网站

Clust =零(尺寸(meas,1),6);为了i = 1:6 clust(:,i)= kmeans(meas,我,'空洞''ingleton'......'复制'5);结尾

每一排克星对应于一个萼片长度测量。六列中的每一个对应于含有1至6个簇的聚类溶液。

使用Calinski-Harabasz标准评估最佳簇数。

EVA = Evallusters(Meas,Clust,'calinskiharabasz'
EVA = CalinskiharabaszEvaluation具有属性:NumObservations:150检测结果:[1 2 3 4 5 6]标准值:[NaN 513.9245 561.6278 530.4871 456.1279 469.5068] Optimalk:3

优惠值表示,基于Calinski-Harabasz标准,最佳群集数是三个。

使用函数句柄来指定群集算法,然后评估最佳群集数。

加载样本数据。

加载渔民;

数据包括来自三种虹膜花的萼片和花瓣的长度和宽度测量。

使用函数句柄来指定群集算法。

myfunc = @(x,k)(kmeans(x,k,'空洞''ingleton'......'复制',5));

使用Calinski-Harabasz标准评估Sepal Length数据的最佳簇数。

Eva = Evallusters(Meas,MyFunc,'calinskiharabasz'......'klist',[1:6])
EVA = CalinskiharabaszEvaluation具有属性:NumObservations:150检测结果:[1 2 3 4 5 6]标准值:[NaN 513.9245 561.6278 530.4871 456.1279 469.5068] Optimalk:3

优惠值表示,基于Calinski-Harabasz标准,最佳群集数是三个。

输入参数

全部收缩

输入数据,指定为N-经过-P.矩阵。N是观察人数,和P.是变量的数量。

数据类型:单身的|双倍的

聚类算法,指定为以下之一。

'kmeans' 群集数据X使用威彻斯聚类算法,具有'空洞'调成'ingleton''复制'调成5.
'连锁' 群集数据X使用clusterdata.凝聚聚类算法,有'连锁'调成“沃德”
'GMDistribution' 群集数据X使用GMDistribution.高斯混合分配算法,有'sharedcov'调成真的'复制'调成5.

如果标准'calinskiharabasz''daviesbouldin', 或者'轮廓',您可以使用a指定群集算法功能手柄。该函数必须是表单c = clustfun(数据,k), 在哪里数据数据是要群集的,还是K.是群集的数量。输出Clustfun.必须是以下之一:

  • 表示每个观察的群集索引的整数矢量数据。必须有K.此向量中的唯一值。

  • 数字N-经过-K.分数矩阵N观察和K.课程。在这种情况下,通过在每行中取得最大的得分值来确定每个观察的集群索引。

如果标准'calinskiharabasz''daviesbouldin', 或者'轮廓',您还可以指定克星作为一个N-经过-K.矩阵包含所提出的聚类解决方案。金宝搏官方网站N是样本数据中的观测数量,以及K.是建议的聚类解决方案的数量。金宝搏官方网站柱子j包含每个每个的群集指数N要点在j分类解决方案。

数据类型:单身的|双倍的|char|细绳|function_handle.

聚类评估标准,指定为以下之一。

'calinskiharabasz' 创建一个Calinskiharabaszevaliuation.包含CalInski-Harabasz索引值的聚类评估对象。
'daviesbouldin' 创建一个DaviesBouldineValuation.包含Davies-Bouldin指标值的群集评估对象。
'差距' 创建一个GapEvaluation.包含GAP标准值的群集评估对象。
'轮廓' 创建一个剪影值群集评估对象包含轮廓值。

名称值对参数

指定可选的逗号分离对名称,价值论点。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:'klist',[1:5],'距离','cityblock'指定使用城市块距离度量测试1,2,3,4和5个集群。
对于所有标准

全部收缩

评估的集群列表,指定为逗号分隔的配对'klist'和正整数值的矢量。您必须指定klist.什么时候克星是群集算法名称或函数句柄。什么时候标准'差距'克星必须是字符向量,字符串标量或函数句柄,并且必须指定klist.

例子:'klist',[1:6]

数据类型:单身的|双倍的

剪影和差距

全部收缩

用于计算标准值的距离度量指定为逗号分隔的对'距离'以及以下之一。

'sqeuclidean' 平方欧几里德距离
'euclidean' 欧几里德距离。此选项无效威彻斯聚类算法。
'城市街区' 绝对差异的总和
'余弦' 一个减去点之间夹角的余弦(作为向量处理)
'相关性' 一个减去点之间的样本相关性(视为值序列)
'汉明' 不同的坐标百分比。此选项仅适用于此轮廓标准。
'jaccard' 非零坐标的百分比不同。此选项仅适用于此轮廓标准。

有关每个距离度量的详细信息,请参阅Pdist.

您还可以使用a指定距离度量的函数功能手柄。距离功能必须是表单d2 = distfun(xi,xj), 在哪里xi.是一个1-by-N矢量对应于输入矩阵的单行X, 和XJ.是一个m2-经过-N矩阵对应于多行XDISTFUN必须返回m2-1-1距离矢量D2,谁的K.元素是之间的距离xi.XJ(k,:)

距离仅接受群集算法如果函数处理克星接受函数手柄作为距离度量。例如,威彻斯聚类算法不接受函数手柄作为距离度量。因此,如果你使用威彻斯算法,然后指定函数句柄距离,软件错误。

  • 如果标准'轮廓',您还可以指定距离作为由函数创建的输出矢量Pdist.

  • 什么时候克星'kmeans'或者'GMDistribution'evallusters.使用指定的距离度量距离群集数据。

  • 如果克星'连锁', 和距离或者是'sqeuclidean'或者'euclidean'然后,聚类算法使用欧几里德距离和沃德连接。

  • 如果克星'连锁'距离是任何其他指标,那么聚类算法使用指定的距离度量和平均链接。

  • 在所有其他情况下,指定的距离度量距离必须匹配聚类算法中使用的距离度量,以获得有意义的结果。

例子:'距离','euclidean'

数据类型:单身的|双倍的|char|细绳|function_handle.

仅限剪影

全部收缩

每个群集的先前概率,指定为逗号分隔对'clusterpriors'以及以下之一。

'经验' 通过对所有点的轮廓值进行平均来计算群集解决方案的整体轮廓值。每个集群将整体轮廓值与其大小成比例地贡献。
'平等的' 通过对每个群集内所有点的轮廓值进行平均来计算群集解决方案的整体轮廓值,然后在所有集群上平均这些值。无论其大小如何,每个集群都同样贡献到整体轮廓值。

例子:'Clusterpriors','经验'

仅限差距

全部收缩

从参考分布生成的参考数据集数参考分布式,指定为逗号分隔的配对组成'B'和积极的整数值。

例子:'B',150

数据类型:单身的|双倍的

参考数据生成方法,指定为逗号分隔对组成'参考分布式'以及以下之一。

'pca' 从与数据矩阵的主要组成部分对齐的框中生成引用数据X
'制服' 在数据矩阵中的每个特征的范围内均匀生成参考数据X

例子:'参考分布','制服'

选择最佳群集数的方法,指定为包括的逗号分隔对'SearchMethod'以及以下之一。

'globalmaxse'

评估每个拟议的簇数klist.并选择令人满意的最小数量的群集

差距 K. G 一种 P. m 一种 X - SE. G 一种 P. m 一种 X

在哪里K.是集群的数量,差距(K.)是聚类解决方案的差距值K.集群,GapMax.是最大的差距价值和se(GapMax.)是与最大间隙值对应的标准误差。

'FirstMaxse'

评估每个拟议的簇数klist.并选择令人满意的最小数量的群集

差距 K. 差距 K. + 1 - SE. K. + 1

在哪里K.是集群的数量,差距(K.)是聚类解决方案的差距值K.群集和se(K.+ 1)是聚类解决方案的标准错误K.+ 1个簇。

例子:'searchmethod','globalmaxse'

输出参数

全部收缩

聚类评估数据,作为群集评估对象返回。

介绍在R2013B.