主要内容

GapEvaluation

包:clustering.evaluation
超类:ClusterCriterion

差距标准聚类评价对象

描述

GapEvaluation是一个对象组成的样本数据,聚类数据和标准差距值用来评估最优数量的集群。创建一个空白标准聚类评价对象使用evalclusters

建设

伊娃= evalclusters (x,clust“差距”)创建一个空白标准聚类评价对象。

伊娃= evalclusters (x,clust“差距”,名称,值)使用附加选项创建一个空白标准聚类评价对象指定一个或多个参数名称-值对。

输入参数

全部展开

输入数据,指定为一个N——- - - - - -P矩阵。N是观测的数量,和P是变量的数量。

数据类型:|

聚类算法,指定为以下之一。

“kmeans” 集群中的数据x使用kmeans聚类算法,“EmptyAction”设置为“单”“复制”设置为5
“链接” 集群中的数据x使用clusterdata烧结的聚类算法,“链接”设置为“病房”
“gmdistribution” 集群中的数据x使用gmdistribution高斯混合分布算法“SharedCov”设置为真正的“复制”设置为5

如果标准“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您可以指定一个聚类算法使用函数处理。函数必须的形式C = clustfun(数据、K),在那里数据是数据集中,K是集群的数量。的输出clustfun必须是下列之一:

  • 一个整数向量代表集群指数每观察数据。必须有K独特的价值观在这个向量。

  • 一个数字n——- - - - - -K的得分矩阵n观察和K类。在这种情况下,集群指数对每个观察确定每一行最大的得分值。

如果标准“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您还可以指定clust作为一个n——- - - - - -K矩阵包含提出的集群解决方案。金宝搏官方网站n的观测样本数据,然后呢K提出的集群解决方案的数量。金宝搏官方网站列j包含集群指数为每个Nj集群解决方案。

数据类型:||字符|字符串|function_handle

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:“中”,[1:5],“距离”,“cityblock”指定测试1,2,3,4,5集群使用街区距离度量。

参考数据集产生的参考数量分布ReferenceDistribution,指定为逗号分隔两人组成的“B”和一个正整数价值。

例子:“B”, 150年

数据类型:|

用于计算的距离度量准则值,指定为逗号分隔组成的“距离”和一个以下。

“sqEuclidean” 平方欧氏距离
“欧几里得” 欧氏距离
“cityblock” 的绝对差异
的余弦 1 -之间的夹角的余弦值点(视为向量)
“相关” 1 -样本点之间的相关性(视为序列值)

每个距离度量的详细信息,请参阅pdist

您还可以指定一个函数供使用的距离度量函数处理。表单的功能必须的距离

XJ d2 = distfun (XI),
在哪里是1 -n向量对应一个单行的输入矩阵X,XJ是一个 2——- - - - - -n矩阵对应于多个行Xdistfun必须返回一个 21的向量距离d2,他的k元素之间的距离XJ (k,:)

距离只接受一个函数处理聚类算法clust接受一个函数处理的距离度量。例如,kmeans聚类算法不接受一个函数处理的距离度量。因此,如果您使用kmeans算法,然后指定一个函数处理距离,软件错误。

  • clust“kmeans”“gmdistribution”,evalclusters使用指定的距离度量距离集群数据。

  • 如果clust“链接”,距离要么是“sqEuclidean”“欧几里得”,聚类算法使用欧氏距离和沃德联系。

  • 如果clust“链接”距离其他指标,聚类算法使用指定的距离度量和平均链接。

  • 在所有其他情况下,在指定的距离度量距离必须匹配中使用的距离度量聚类算法来获取有意义的结果。

例子:“距离”,“欧几里得”

数据类型:||字符|字符串|function_handle

集群的数量来评估列表,指定为逗号分隔组成的“中”和一个向量的正整数的值。您必须指定clust是一个聚类算法的名字或一个函数处理。当标准“差距”,clust必须是一个特征向量,一个字符串标量,或一个函数处理,你必须指定吗

例子:“中”,[1:6]

数据类型:|

参考数据生成方法,指定为逗号分隔组成的“ReferenceDistributions”和一个以下。

主成分分析的 生成参考数据均匀分布在一个箱与主成分的数据矩阵x
“统一” 生成参考数据统一在每个特性的数据矩阵x

例子:“ReferenceDistribution”、“制服”

方法选择最优数量的集群,指定为逗号分隔组成的“SearchMethod”和一个以下。

“globalMaxSE”

评估每个提议的集群和选择的最小数量的集群满意

差距 ( K ) G 一个 P 一个 X SE ( G 一个 P 一个 X ) ,

在哪里K是集群的数量差距(K)的差距值集群解决方案K集群,GAPMAX是最大的差距值和SE (GAPMAX)是标准误差值对应于最大的差距。

“firstMaxSE”

评估每个提议的集群和选择的最小数量的集群满意

差距 ( K ) 差距 ( K + 1 ) SE ( K + 1 ) ,

在哪里K是集群的数量差距(K)的差距值集群解决方案K集群和SE (K+ 1)的标准误差是集群解决方案K+ 1集群。

例子:“SearchMethod”、“globalMaxSE”

属性

B

数据集产生的参考数量分布、存储为一个正整数的值。

ClusteringFunction

聚类算法用于集群输入数据,存储为一个有效的聚类算法名称或函数处理。如果集群解决方案提供的输入,金宝搏官方网站ClusteringFunction是空的。

CriterionName

标准的名称用于聚类评价,名字存储为一个有效的标准。

CriterionValues

准则值对应于每个提议的集群InspectedK,存储为一个向量的数值。

距离

距离度量用于聚类数据,存储为一个有效的距离度量的名字。

ExpectedLogW

期望的自然对数W基于生成的参考数据,存储为一个向量的标量值。W是within-cluster分散计算使用的距离度量距离

InspectedK

列表的数量提出了集群的计算准则值,存储为一个向量的正整数的值。

LogW

自然对数的W根据输入数据,存储为一个标量值的向量。W是within-cluster分散计算使用的距离度量距离

失踪

排除的逻辑信号数据,存储为一个列向量的逻辑值。如果失踪=真正的在数据矩阵,那么相应的价值x不使用集群解决方案。

NumObservations

的观测数据矩阵X-失踪的数量()值X,作为一个正整数存储值。

OptimalK

最优数量的集群,存储为一个正整数的值。

最适条件

最优聚类对应的解决方案OptimalK,存储为一个列向量的正整数的值。如果集群解决方案提供的输入,金宝搏官方网站最适条件是空的。

ReferenceDistribution

参考数据生成方法,分配名称存储为一个有效的参考。

SE

标准错误的自然对数W对于每个集群的数量的参考数据InspectedK标量值,存储为一个向量。W是within-cluster分散计算使用的距离度量距离

SearchMethod

方法确定最优数量的集群,存储为一个有效的搜索方法的名字。

StdLogW

标准差的自然对数W对于每个集群的数量的参考数据InspectedKW是within-cluster分散计算使用的距离度量距离

X

数据用于集群,存储为一个矩阵的数值。

方法

increaseB 增加引用数据集

继承的方法

addK 评估额外数量的集群
紧凑的 紧凑的聚类评价对象
情节 图聚类评价对象标准的价值观

例子

全部折叠

评估最优数量的集群使用聚类评价标准的差距。

加载示例数据。

负载fisheriris

数据包含的萼片和花瓣测量三种虹膜花。

基于标准的差距评估集群的数量值。集群的数据使用kmeans

rng (“默认”);%的再现性伊娃= evalclusters(量,“kmeans”,“差距”,“中”[1:6])
伊娃= GapEvaluation属性:NumObservations: 150 InspectedK: (1 2 3 4 5 6) CriterionValues: [0.0720 0.5928 0.8762 1.0114 1.0534 1.0720] OptimalK: 5

OptimalK值表示,基于标准的差距,最优数量的集群是5。

情节标准的差距值为每个集群测试的数量。

情节(eva)

图包含一个坐标轴对象。坐标轴对象包含2 errorbar类型的对象。

根据情节,gap标准的最大值发生在六个集群。然而,价值5集群在一个标准的最大误差,所以建议最优数量的集群是5。

创建一个分组的散点图来检查花瓣长度和宽度之间的关系。集团的数据显示集群。

图PetalLength =量(:3);PetalWidth =量(:4);ClusterGroup = eva.OptimalY;gscatter (PetalLength PetalWidth ClusterGroup,“rbgkc”,“xod ^ *’);

图包含一个坐标轴对象。坐标轴对象包含5线类型的对象。这些对象是1、2、3、4、5。

情节在左下角显示集群4,完全脱离其他四个集群。集群4包含花最小的花瓣宽度和长度。集群2是在右上角,包含最大的鲜花花瓣宽度和长度。集群5是旁边集群2和包含相似的花花瓣宽度作为集群2中的鲜花,但小花瓣长度比集群2中的花朵。集群1和3是附近的中心情节和包含花测量之间的极端。

更多关于

全部展开

引用

[1]Tibshirani, R。,G。W一个lther, and T. Hastie. “Estimating the number of clusters in a data set via the gap statistic.”英国皇家统计学会杂志》:系列B。63卷,第2部分,2001年,页411 - 423。