查找和可视化数据中的自然分组和模式

聚类分析涉及应用聚类算法,目的是在数据集中发现隐藏的模式或分组。因此,它经常用于探索性数据分析,但也用于异常检测和监督学习的预处理。

群集算法形式的分组以这样的方式:组(或群集)内的数据具有比任何其他群集中的数据的相似性更高。可以使用各种相似度措施,包括欧几里德,概率,余弦距离和相关性。最多无监督学习方法是聚类分析的一种形式。

聚类算法分为两大类:

  1. 硬群,每个数据点只属于一个群集,例如流行K- eans方法。
  2. 软聚类,其中每个数据点可以属于多个聚类,例如在高斯混合模型中。例如,语音中的音素可以建模为多个基本声音的组合,基因可以参与多种生物过程。

K-Means Clustering,它由其质心代表群体 - 每个成员的平均值,由上图中的星星描绘。

Gassian混合模型,分配簇成员概率,表示不同簇的关联强度。

群集分析用于各种域和应用程序以识别模式和序列:

  • 在数据压缩方法中,聚类可以表示数据而不是原始信号。
  • 在分割算法中,簇表示图像和激光雷达点云的区域。
  • 遗传聚类和序列分析被用于生物信息学。

在半监督学习中,聚类技术还用于建立标记数据和未标记数据之间的相似性,其中初始模型使用最小标记数据建立,并用于为原始未标记数据分配标签。相比之下,半监督聚类将有关聚类的可用信息合并到聚类过程中,例如,如果已知某些观测值属于同一个聚类,或者某些聚类与特定的结果变量相关联。

MATLAB®金宝app支持多种流行的聚类分析算法:

  • 分层群集通过创建群集树来构建群集的多级层次结构。
  • k-均值聚类将数据分区为基于与群集质心的距离的k个不同的群集。
  • 高斯混合模型以多元正态密度分量的混合形式形成簇。
  • 空间聚类(例如基于流行的密度的DBSCAN)彼此在高密度区域彼此接近的群体,在低密度区域中跟踪异常值。可以处理任意的非凸形形状。
  • 自组织映射使用学习数据拓扑和分布的神经网络。
  • 光谱聚类将输入数据转换为基于图形的表示,其中群集优于原始特征空间中的群集。通过研究图形的特征​​值,可以估计簇的数量。
  • 隐藏的马尔可夫模型可用于发现序列中的模式,如生物信息学中的基因和蛋白质。

关键点

  • 聚类分析常用于探索性数据分析、异常检测和分割以及监督学习的预处理。
  • K-均值和层次聚类仍然很流行,但对于非凸形状,需要更先进的技术,如DBSCAN和谱聚类。
  • 可用于发现数据分组的其他无监督方法包括降维技术和特征排序。

MATLAB中的聚类分析实例

使用imsegkmeans命令(使用它K- eANS算法),MATLAB将三种簇分配给原始图像(用血红素蛋白和曙红染色的组织),将组织分割成三类(表示为白色,黑色和灰色)。尝试自己以及相关的细分方法下面是一个代码示例.

另见:统计和机器学习工具箱™,用matlab学习,图像处理工具箱™