集群评价

这个例子展示了如何在费雪的虹膜识别集群数据。

加载费雪的虹膜数据集。

负载fisheririsX =量;y =分类(物种);

X是一个数字矩阵,包含两个花瓣测量150虹膜。Y是一个单元阵列包含相应的特征向量的虹膜的物种。

评估从1到10多个集群。

伊娃= evalclusters (X,“kmeans”,“CalinskiHarabasz”,“中”1:10)

伊娃= CalinskiHarabaszEvaluation属性:NumObservations: 150 InspectedK: (1 2 3 4 5 6 7 8 9 10] CriterionValues:[南513.9245 561.6278 530.4871 456.1279 469.5068 449.6410 435.8182 413.3837 386.5571]OptimalK: 3

的OptimalK值表示,基于Calinski-Harabasz标准,最优数量的集群是三。

可视化伊娃查看结果为每个集群的数量。

情节(eva)

图包含一个坐标轴对象。坐标轴对象包含数量的集群,ylabel CalinskiHarabasz值包含2线类型的对象。

大多数聚类算法需要先验知识集群的数量。当这些信息不可用,使用集群评价技术来确定集群的数量出现在数据基于指定的度量。

三个集群的三种数据是一致的。

类别(y)

ans =3 x1细胞{' setosa}{“癣”}{' virginica '}

计算一个负的二阶近似的数据可视化的目的。

xr = nnmf (X, 2);

最初的功能是减少到两个特性。既然没有一个特点是消极的,nnmf也保证了功能是负的。

确认三个集群使用散点图直观地。

gscatter (xr (: 1) xr (:, 2), y)包含(第一列的)ylabel (第2列的网格)在

图包含一个坐标轴对象。坐标轴对象包含列1,ylabel第2列包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。

另请参阅

evalclusters|nnmf