主要内容

集群的数据

集群的数据使用k-表示实时编辑器中的算法

描述

集群的数据活动编辑器任务使您能够交互式地执行k——集群。任务生成MATLAB®为您的活动脚本编写代码,并将结果集群索引和集群质心位置返回到MATLAB工作区。

您可以:

  • 通过选择集群数量手动确定数据的最佳集群数量,或者通过指定标准(如间隙值、轮廓值、Davies-Bouldin索引值和Calinski-Harabasz索引值)自动确定数据的最佳集群数量。

  • 自定义群集数据的参数,包括距离度量和重复次数。

  • 自动可视化集群数据。

有关实时编辑器任务的一般信息,请参见向活动脚本添加交互式任务

打开任务

添加集群的数据任务到现场脚本:

  • 住编辑器选项卡上,选择任务>集群的数据

  • 在活动脚本的代码块中,键入相关的关键字,例如聚类kmeans.选择集群的数据从建议的命令完成。

例子

全部展开

这个例子展示了如何使用集群的数据任务交互执行k-表示集群用于指定数量的集群。

加载示例数据。数据包括三种鸢尾花的萼片和花瓣的长度和宽度的测量。

负载fisheriris

打开集群的数据的任务。要打开任务,开始键入关键字聚类在代码块中选择集群的数据从建议的命令完成。

下拉列表显示建议的命令完成。列表中的第三条建议是针对群集数据任务的,已选中。

将数据聚为两个簇。

  • 选择变量作为输入数据。

  • 设置集群数量为2

  • 住编辑器选项卡,按运行按钮以运行任务。

MATLAB在散点图中显示聚类数据和聚类方法。

聚类数据任务显示选定的参数和结果散点图,样本数据分成两个聚类。

将集群数量增加到3.然后重新运行该任务。MATLAB在散点图中显示更新后的聚类数据和聚类方法。

聚类数据任务显示选定的参数和结果散点图,样本数据分为三个聚类。

该任务在您的活动脚本中生成代码。生成的代码反映了您选择的参数和选项,并包含生成散点图的代码。要查看生成的代码,请单击向下的箭头在任务参数区域的底部。任务展开以显示生成的代码。

为群集数据任务生成的代码。代码使用kmeans函数对数据进行聚类,使用scatter函数显示结果。

默认情况下,生成的代码使用clusterIndices重心作为返回到MATLAB工作空间的输出变量的名称。的clusterIndices向量是包含聚类索引的数字列向量。在每一行clusterIndices指示相应观测的聚类分配。的重心矩阵是一个包含簇心位置的数值矩阵。要指定不同的输出变量名,请在任务顶部的摘要行中输入新的名称。例如,将两个变量名改为c_indicesc_locations

Cluster Data任务的第一行,用红色圈出重命名的输出c_indices和c_locations。

当任务运行时,将更新生成的代码以反映新的变量名。新变量c_indicesc_locations出现在MATLAB工作区中。

这个例子展示了如何使用集群的数据任务是基于选定的标准交互式地评估聚类解决方案。金宝搏官方网站

加载示例数据。数据包括三种鸢尾花的萼片和花瓣的长度和宽度的测量。

负载fisheriris

打开集群的数据的任务。要打开任务,开始键入关键字聚类在代码块中选择集群的数据从建议的命令完成。

下拉列表显示建议的命令完成。列表中的第三条建议是针对群集数据任务的,已选中。

评估最佳的集群数量。

  • 选择变量作为输入数据。

  • 设置集群数量选择方法为最优

  • 设置范围最小和最大为26

  • 住编辑器选项卡,按运行按钮以运行任务。

MATLAB显示了评价结果的柱状图,表明基于Calinski-Harabasz准则的最优聚类数为3。散点图显示了聚类数据和使用最佳聚类数量3的聚类均值。你的结果可能不同。

群集数据任务显示选定的参数和两个图表。图表为条形图,显示了对每个聚类数的评价结果。第二个图表为散点图,将样本数据划分为三个聚类。

相关的例子

参数

通过从可用的工作区变量中选择一个变量来指定要集群的数据。变量必须是出现在列表中的数字矩阵。

指定用于确定数据的最佳集群数量的方法。

  • 手册—手动指定要将数据分组到的集群数量。

  • 最优——使用evalclusters函数根据间隙值、剪影值、Davies-Bouldin指数和Calinski-Harabasz指数等准则来寻找最优簇数。

将要计算的集群数量列表指定为由最小值和最大值组成的范围。例如,如果指定的最小值为2最大值为6,该任务评估集群2、3、4、5和6的数量,以确定最优数量。

要显示集群数据,请从可用选项中选择:

  • 选择2D散点图(PCA)以在二维散点图中显示聚集数据的主分量。的集群的数据任务使用gscatter函数创建散点图。

  • 选择散点图矩阵以散点图矩阵显示聚类数据。当您选择散点图矩阵时,复选框右侧将显示一个列表。列表中的每一项表示指定输入数据中的一列。按下Ctrl键并从列表中选择最多4个输入数据列。的集群的数据任务使用主成分分析gplotmatrix函数从选定的列创建散点图的矩阵。

    矩阵中的散点图在集群索引中比较选定的输入数据列。矩阵中的对角线图是直方图,显示了每个聚类指数的选定列的分布。

提示

  • 默认情况下,集群的数据修改任务参数时,任务不会自动运行。要使任务在任何更改之后自动运行,请选择自动运行按钮位于任务的右上方。如果您的数据集较大,请不要启用此选项。

介绍了R2021b