主要内容

K.- 梅尔集群

本主题提供了介绍K.- emeans群集和使用统计和机器学习工具箱™功能的示例威彻斯找到数据集的最佳聚类解决方案。

介绍K.- 梅尔集群

K.- emeans群集是一个分区方法。功能威彻斯将数据分区为K.互斥群集并返回它为每个观察分配的群集的索引。威彻斯将数据中的每个观察视为具有空间位置的对象。该函数找到一个分区,其中每个簇内的对象尽可能靠近彼此靠近,并且远离尽可能遥控器中的对象。你可以选择一个距离度量使用威彻斯基于数据的属性。像许多聚类方法一样,K.- 群集群集要求您指定群集的数量K.在聚类之前。

与分层群集不同,K.- 模拟群集在实际观察中运行,而不是数据中每对观察之间的不同观察。还,K.- emeans群集创建单个级别的群集,而不是群集的多级层次结构。所以,K.- 群集群集通常比分层聚类更适合大量数据。

每个群集K.- 模糊分区由成员对象和质心(或中心)组成。在每个集群中,威彻斯最小化质心和集群的所有成员对象之间的距离之和。威彻斯为支持的距离指标计算质心群集。金宝app有关详细信息,请参阅'距离'

您可以使用可用的名称值对参数来控制最小化最小化的详细信息威彻斯;例如,您可以指定群集质心的初始值以及算法的最大迭代次数。默认,威彻斯用来K.-means ++算法初始化群集质心,并将平方欧几里德距离度量确定距离。

在表演时K.- emeans群集,遵循这些最佳实践:

  • 比较K.- 为不同值的集群解决方案金宝搏官方网站K.确定数据的最佳群集合。

  • 通过检查轮廓图和剪影值来评估聚类解决方案金宝搏官方网站。你也可以使用evallusters.基于标准评估聚类解决方案的功能,例如间隙值,剪影值,Davies金宝搏官方网站-Bouldin指标值和Calinski-Harabasz指数值。

  • 从不同随机选择的质心复制群集并将解决方案返回到所有复制中的最低总和的总和。

比较K.- 梅尔集群解决方案金宝搏官方网站

这个例子探讨了K.- 在四维数据集中群集群集。该示例显示了如何通过使用剪影图和值来确定数据集的正确数量,以分析不同的结果K.- 模拟群集解决方案。金宝搏官方网站该示例还展示了如何使用'复制'名称 - 值对参数以测试指定的可能解决方案,并将其返回最低距离总和的问题。金宝搏官方网站

加载数据集

加载Kmeansdata.数据集。

RNG('默认'重复性的%加载('kmeansdata.mat')尺寸(x)
ans =.1×2560 4.

数据集是四维,不能轻松地可视化。然而,威彻斯使您可以调查数据中是否存在组结构。

创建群集并检查分离

将数据分组到三个集群中使用K.- eans集群。指定城市块距离度量,并使用默认值K.-means ++群集中心初始化算法。使用'展示'名称值对参数打印解决方案的最终距离之和。

[idx3,c,sumdist3] = kmeans(x,3,'距离''城市街区''展示''最终的');
复制1,7迭代,距离总和= 2459.98。最佳距离总和= 2459.98

IDX3.包含群集索引,指示每行的群集分配X。要查看生成的群集是否合适,您可以创建剪影图。

剪影绘图显示一个群集在相邻群集中点的每个点的尺寸。该度量范围为1(指示远离相邻群集的点)到0(在一个集群中不明确的点或另一个簇中的点)到-1(可能分配给错误群集的点)。轮廓在其第一个输出中返回这些值。

创建一个轮廓图IDX3.。指定'城市街区'对于距离度量来表示K.- 群集群集基于绝对差异的总和。

[silh3,h] =剪影(x,idx3,'城市街区');Xlabel('剪影值')ylabel('簇'

图包含轴。轴包含类型栏的物体。

剪影图表明,第二群集中的大多数点具有大型轮廓值(大于0.6),表示群集有点与相邻群集分离。但是,第三群集群包含具有低轮廓值的许多点,第一个和第三集群包含几个具有负值的点,表示这两个群集不合适。

看看if.威彻斯可以找到更好的数据分组,将群集数量增加到四个。使用使用的打印有关每次迭代的信息'展示'名称值对参数。

idx4 = kmeans(x,4,'距离''城市街区''展示''iter');
迭代阶段Num Sum 1 1 560 1792.72 2 1 6 1771.1最佳距离总和= 1771.1

为四个集群创建一个轮廓图。

[silh4,h] =剪影(x,idx4,'城市街区');Xlabel('剪影值')ylabel('簇'

图包含轴。轴包含类型栏的物体。

轮廓图表明这四个集群比上一个解决方案中的三个集群更好。您可以采取更定量的方法来通过计算两种情况的平均轮廓值来比较两个解决方案。金宝搏官方网站

计算平均轮廓值。

cluster3 =平均值(silh3)
Cluster3 = 0.5352.
cluster4 =均值(silh4)
Cluster4 = 0.6400.

四个集群的平均轮廓值高于三集群的平均值。这些值支持轮廓图中所示的结金宝app论。

最后,在数据中找到五个群集。创建剪影绘图并计算五个集群的平均轮廓值。

idx5 = kmeans(x,5,'距离''城市街区''展示''最终的');
复制1,7迭代,距离总和= 1647.26。最佳距离总和= 1647.26
[silh5,h] =剪影(x,idx5,'城市街区');Xlabel('剪影值')ylabel('簇'

图包含轴。轴包含类型栏的物体。

意思(silh5)
ans = 0.5721.

剪影图表示五个可能不是正确的群集数量,因为两个群集包含具有大多数轮廓值的点,第五个群集包含几个具有负值的点。此外,五个集群的平均轮廓值低于四个集群的值。不知道数据中有多少个集群,它是一个好主意,实验有一系列值K.,集群的数量。

请注意,随着群集数量的增加,距离之和减少。例如,距离之和减少了2459.981771.1.1647.26由于簇的数量从3到4增加到5到5。因此,距离之和对于确定最佳簇数量不用。

避免当地最小值

默认,威彻斯使用随机选定的初始中心位置开始群集进程。这威彻斯算法可以收敛到最小的局部(NongLobal)的解决方案;那是,威彻斯可以分区数据使任何单点移动到不同的集群增加了总和的距离总和。然而,与许多其他类型的数值最小化一样,解决方案威彻斯达到有时取决于起点。因此,数据可以存在较低距离总和的其金宝搏官方网站他解决方案(局部最小值)。你可以使用'复制'名称值对参数以测试不同的解决方案。金宝搏官方网站当您指定多个复制时,威彻斯重复从不同随机选择的质心开始的群集过程,每个复制,并将解决方案返回到所有复制中的最低距离总和。

在数据中查找四个群集并复制群集五次。另外,指定城市块距离度量,并使用'展示'名称 - 值对参数打印每个解决方案的最终距离之和。

[idx4,cent4,sumdist] = kmeans(x,4,'距离''城市街区'......'展示''最终的''复制'5);
复制1,2迭代,距离总和= 1771.1。复制2,3迭代,距离总和= 1771.1。复制3,3迭代,距离总和= 1771.1。复制4,6迭代,距离总和= 2300.23。复制5,2迭代,距离总和= 1771.1。最佳距离总和= 1771.1

在复制4,威彻斯找到一个地方最低限度。因为每个复制从不同的随机选择的初始质心集开始,所以威彻斯有时发现多个本地最低限度。但是,最终解决方案威彻斯返回是所有重复的最低距离总和的返回。

查找返回的最终解决方案的点对点距离内部群集距离的总和总和威彻斯

总和(Sumdist)
ans = 1.7711e + 03

也可以看看

|

相关话题