GapEvaluation

包:clustering.evaluation
超类:ClusterCriterion

差距标准聚类评价对象

扩展所有的页面

描述

GapEvaluation是一个对象组成的样本数据,聚类数据和标准差距值用来评估最优数量的集群。创建一个空白标准聚类评价对象使用evalclusters。

建设

伊娃= evalclusters (x,clust“差距”)创建一个空白标准聚类评价对象。

伊娃= evalclusters (x,clust“差距”,名称,值)使用附加选项创建一个空白标准聚类评价对象指定一个或多个参数名称-值对。

输入参数

全部展开

`x`- - - - - -输入数据
矩阵

输入数据,指定为一个N——- - - - - -P矩阵。N是观测的数量,和P是变量的数量。

数据类型:单|双

`clust`- - - - - -聚类算法
`“kmeans”`|`“链接”`|`“gmdistribution”`|矩阵的集群解决方案金宝搏官方网站|函数处理

聚类算法,指定为以下之一。

`“kmeans”`	集群中的数据`x`使用`kmeans`聚类算法,`“EmptyAction”`设置为`“单”`和`“复制”`设置为`5`。
`“链接”`	集群中的数据`x`使用`clusterdata`烧结的聚类算法,`“链接”`设置为`“病房”`。
`“gmdistribution”`	集群中的数据`x`使用`gmdistribution`高斯混合分布算法`“SharedCov”`设置为`真正的`和`“复制”`设置为`5`。

如果标准是“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您可以指定一个聚类算法使用函数处理。函数必须的形式C = clustfun(数据、K),在那里数据是数据集中,K是集群的数量。的输出clustfun必须是下列之一:

一个整数向量代表集群指数每观察数据。必须有K独特的价值观在这个向量。
一个数字n——- - - - - -K的得分矩阵n观察和K类。在这种情况下,集群指数对每个观察确定每一行最大的得分值。

如果标准是“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您还可以指定clust作为一个n——- - - - - -K矩阵包含提出的集群解决方案。金宝搏官方网站n的观测样本数据,然后呢K提出的集群解决方案的数量。金宝搏官方网站列j包含集群指数为每个N分j集群解决方案。

数据类型:单|双|字符|字符串|function_handle

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家。

例子:“中”,[1:5],“距离”,“cityblock”指定测试1,2,3,4,5集群使用街区距离度量。

`B`- - - - - -参考数据集的数量
`One hundred.`(默认)|正整数的值

参考数据集产生的参考数量分布ReferenceDistribution,指定为逗号分隔两人组成的“B”和一个正整数价值。

例子:“B”, 150年

数据类型:单|双

`距离`- - - - - -距离度量
`“sqEuclidean”`(默认)|`“欧几里得”`|`“cityblock”`|函数|……

用于计算的距离度量准则值,指定为逗号分隔组成的“距离”和一个以下。

`“sqEuclidean”`	平方欧氏距离
`“欧几里得”`	欧氏距离
`“cityblock”`	的绝对差异
`的余弦`	1 -之间的夹角的余弦值点(视为向量)
`“相关”`	1 -样本点之间的相关性(视为序列值)

每个距离度量的详细信息,请参阅pdist。

您还可以指定一个函数供使用的距离度量函数处理。表单的功能必须的距离

XJ d2 = distfun (XI),

在哪里习是1 -n向量对应一个单行的输入矩阵X,XJ是一个米 ₂——- - - - - -n矩阵对应于多个行X。distfun必须返回一个米 ₂1的向量距离d2,他的k元素之间的距离习和XJ (k,:)。

距离只接受一个函数处理聚类算法clust接受一个函数处理的距离度量。例如,kmeans聚类算法不接受一个函数处理的距离度量。因此,如果您使用kmeans算法,然后指定一个函数处理距离,软件错误。

当clust是“kmeans”或“gmdistribution”,evalclusters使用指定的距离度量距离集群数据。
如果clust是“链接”,距离要么是“sqEuclidean”或“欧几里得”,聚类算法使用欧氏距离和沃德联系。
如果clust是“链接”和距离其他指标,聚类算法使用指定的距离度量和平均链接。
在所有其他情况下,在指定的距离度量距离必须匹配中使用的距离度量聚类算法来获取有意义的结果。

例子:“距离”,“欧几里得”

数据类型:单|双|字符|字符串|function_handle

`中`- - - - - -集群的数量来评估列表
向量

集群的数量来评估列表,指定为逗号分隔组成的“中”和一个向量的正整数的值。您必须指定中当clust是一个聚类算法的名字或一个函数处理。当标准是“差距”,clust必须是一个特征向量,一个字符串标量,或一个函数处理,你必须指定吗中。

例子:“中”,[1:6]

数据类型:单|双

`ReferenceDistribution`- - - - - -参考数据生成方法
`主成分分析的`(默认)|`“统一”`

参考数据生成方法,指定为逗号分隔组成的“ReferenceDistributions”和一个以下。

`主成分分析的`	生成参考数据均匀分布在一个箱与主成分的数据矩阵`x`。
`“统一”`	生成参考数据统一在每个特性的数据矩阵`x`。

例子:“ReferenceDistribution”、“制服”

`SearchMethod`- - - - - -方法选择最优数量的集群
`“globalMaxSE”`(默认)|`“firstMaxSE”`

方法选择最优数量的集群,指定为逗号分隔组成的“SearchMethod”和一个以下。

“globalMaxSE”

评估每个提议的集群中和选择的最小数量的集群满意

$差距 (K) \geq G 一个 P 米一个 X - SE (G 一个 P 米一个 X),$

在哪里K是集群的数量差距(K)的差距值集群解决方案K集群,GAPMAX是最大的差距值和SE (GAPMAX)是标准误差值对应于最大的差距。

“firstMaxSE”

评估每个提议的集群中和选择的最小数量的集群满意

$差距 (K) \geq 差距 (K + 1) - SE (K + 1),$

在哪里K是集群的数量差距(K)的差距值集群解决方案K集群和SE (K+ 1)的标准误差是集群解决方案K+ 1集群。

例子:“SearchMethod”、“globalMaxSE”

属性

`B`	数据集产生的参考数量分布、存储为一个正整数的值。
`ClusteringFunction`	聚类算法用于集群输入数据,存储为一个有效的聚类算法名称或函数处理。如果集群解决方案提供的输入,金宝搏官方网站`ClusteringFunction`是空的。
`CriterionName`	标准的名称用于聚类评价,名字存储为一个有效的标准。
`CriterionValues`	准则值对应于每个提议的集群`InspectedK`,存储为一个向量的数值。
`距离`	距离度量用于聚类数据,存储为一个有效的距离度量的名字。
`ExpectedLogW`	期望的自然对数W基于生成的参考数据,存储为一个向量的标量值。W是within-cluster分散计算使用的距离度量`距离`。
`InspectedK`	列表的数量提出了集群的计算准则值,存储为一个向量的正整数的值。
`LogW`	自然对数的W根据输入数据,存储为一个标量值的向量。W是within-cluster分散计算使用的距离度量`距离`。
`失踪`	排除的逻辑信号数据,存储为一个列向量的逻辑值。如果`失踪`=`真正的`在数据矩阵,那么相应的价值`x`不使用集群解决方案。
`NumObservations`	的观测数据矩阵`X`-失踪的数量(`南`)值`X`,作为一个正整数存储值。
`OptimalK`	最优数量的集群,存储为一个正整数的值。
`最适条件`	最优聚类对应的解决方案`OptimalK`,存储为一个列向量的正整数的值。如果集群解决方案提供的输入,金宝搏官方网站`最适条件`是空的。
`ReferenceDistribution`	参考数据生成方法,分配名称存储为一个有效的参考。
`SE`	标准错误的自然对数W对于每个集群的数量的参考数据`InspectedK`标量值,存储为一个向量。W是within-cluster分散计算使用的距离度量`距离`。
`SearchMethod`	方法确定最优数量的集群,存储为一个有效的搜索方法的名字。
`StdLogW`	标准差的自然对数W对于每个集群的数量的参考数据`InspectedK`。W是within-cluster分散计算使用的距离度量`距离`。
`X`	数据用于集群,存储为一个矩阵的数值。

方法

increaseB

增加引用数据集

继承的方法

addK	评估额外数量的集群
紧凑的	紧凑的聚类评价对象
情节	图聚类评价对象标准的价值观

例子

全部折叠

评估集群解决方案使用标准的差距

打开生活的脚本

评估最优数量的集群使用聚类评价标准的差距。

加载示例数据。

负载fisheriris

数据包含的萼片和花瓣测量三种虹膜花。

基于标准的差距评估集群的数量值。集群的数据使用kmeans。

rng (“默认”);%的再现性伊娃= evalclusters(量,“kmeans”,“差距”,“中”[1:6])

伊娃= GapEvaluation属性:NumObservations: 150 InspectedK: (1 2 3 4 5 6) CriterionValues: [0.0720 0.5928 0.8762 1.0114 1.0534 1.0720] OptimalK: 5

的OptimalK值表示,基于标准的差距,最优数量的集群是5。

情节标准的差距值为每个集群测试的数量。

情节(eva)

图包含一个坐标轴对象。坐标轴对象包含2 errorbar类型的对象。

根据情节,gap标准的最大值发生在六个集群。然而,价值5集群在一个标准的最大误差,所以建议最优数量的集群是5。

创建一个分组的散点图来检查花瓣长度和宽度之间的关系。集团的数据显示集群。

图PetalLength =量(:3);PetalWidth =量(:4);ClusterGroup = eva.OptimalY;gscatter (PetalLength PetalWidth ClusterGroup,“rbgkc”,“xod ^ *’);

图包含一个坐标轴对象。坐标轴对象包含5线类型的对象。这些对象是1、2、3、4、5。

情节在左下角显示集群4,完全脱离其他四个集群。集群4包含花最小的花瓣宽度和长度。集群2是在右上角,包含最大的鲜花花瓣宽度和长度。集群5是旁边集群2和包含相似的花花瓣宽度作为集群2中的鲜花,但小花瓣长度比集群2中的花朵。集群1和3是附近的中心情节和包含花测量之间的极端。

引用

[1]Tibshirani, R。,G。W一个lther, and T. Hastie. “Estimating the number of clusters in a data set via the gap statistic.”英国皇家统计学会杂志》:系列B。63卷,第2部分,2001年,页411 - 423。

另请参阅

evalclusters|CalinskiHarabaszEvaluation|DaviesBouldinEvaluation|SilhouetteEvaluation

GapEvaluation

描述

建设

输入参数

`x`- - - - - -输入数据
矩阵

`clust`- - - - - -聚类算法
`“kmeans”`|`“链接”`|`“gmdistribution”`|矩阵的集群解决方案金宝搏官方网站|函数处理

`B`- - - - - -参考数据集的数量
`One hundred.`(默认)|正整数的值

`距离`- - - - - -距离度量
`“sqEuclidean”`(默认)|`“欧几里得”`|`“cityblock”`|函数|……

`中`- - - - - -集群的数量来评估列表
向量

`ReferenceDistribution`- - - - - -参考数据生成方法
`主成分分析的`(默认)|`“统一”`

`SearchMethod`- - - - - -方法选择最优数量的集群
`“globalMaxSE”`(默认)|`“firstMaxSE”`

属性

方法

继承的方法

例子

评估集群解决方案使用标准的差距

更多关于

空白值

引用

另请参阅

主题

统计和机器学习工具箱文档

金宝app

掌握机器学习:一个循序渐进的指导与MATLAB

GapEvaluation

描述

建设

输入参数

x- - - - - -输入数据矩阵

clust- - - - - -聚类算法“kmeans”|“链接”|“gmdistribution”|矩阵的集群解决方案金宝搏官方网站|函数处理

B- - - - - -参考数据集的数量One hundred.(默认)|正整数的值

距离- - - - - -距离度量“sqEuclidean”(默认)|“欧几里得”|“cityblock”|函数|……

中- - - - - -集群的数量来评估列表向量

ReferenceDistribution- - - - - -参考数据生成方法主成分分析的(默认)|“统一”

SearchMethod- - - - - -方法选择最优数量的集群“globalMaxSE”(默认)|“firstMaxSE”

属性

方法

继承的方法

例子

评估集群解决方案使用标准的差距

更多关于

空白值

引用

另请参阅

主题

统计和机器学习工具箱文档

金宝app

掌握机器学习:一个循序渐进的指导与MATLAB

`x`- - - - - -输入数据
矩阵

`clust`- - - - - -聚类算法
`“kmeans”`|`“链接”`|`“gmdistribution”`|矩阵的集群解决方案金宝搏官方网站|函数处理

`B`- - - - - -参考数据集的数量
`One hundred.`(默认)|正整数的值

`距离`- - - - - -距离度量
`“sqEuclidean”`(默认)|`“欧几里得”`|`“cityblock”`|函数|……

`中`- - - - - -集群的数量来评估列表
向量

`ReferenceDistribution`- - - - - -参考数据生成方法
`主成分分析的`(默认)|`“统一”`

`SearchMethod`- - - - - -方法选择最优数量的集群
`“globalMaxSE”`(默认)|`“firstMaxSE”`