查找并可视化数据中的自然分组和模式

群集分析涉及应用聚类算法,其目标是在数据集中查找隐藏模式或分组的目标。因此,它经常在探索性数据分析中使用,但也用于受监督学习的异常检测和预处理。

聚类算法形成分组的方式是,组(或集群)内的数据比任何其他集群中的数据具有更高的相似性度量。可以使用各种相似度量,包括欧几里德、概率、余弦距离和相关。大多数无人监督的学习方法是一种聚类分析形式。

聚类算法落入两组广泛的组:

  1. 硬聚类,即每个数据点只属于一个聚类,如流行的K.- eans方法。
  2. 软聚类,其中每个数据点可以属于多个群集,例如在高斯混合模型中。示例包括语音中的音素,其可以被建模为可以参与多个生物过程的多个基本声音和基因的组合。

K-means聚类,用每个成员的质心表示分组,由上图中的星星表示。

Gassian混合模型,分配集群成员资格概率,代表与不同群集相关的强度。

聚类分析在许多领域和应用中用于识别模式和序列:

  • 群集可以代表数据而不是数据压缩方法中的原始信号。
  • 群集表示分割算法中的图像区域和激光雷达云。
  • 遗传聚类和序列分析用于生物信息学。

聚类技术还用于在半监督学习中建立标记和未标记的数据之间的相似性,其中初始模型由最小标记数据构建,并用于将标签分配给最初未标记的数据。相比之下,半监督群集将有关群集的可用信息包含到聚类过程中,例如,如果已知某些观察属于同一群集,或者某些集群与特定的结果变量相关联。

马铃薯®金宝app支持许多流行的聚类分析算法:

  • 分层聚类通过创建群集树构建多级层次结构。
  • k-means聚类根据到聚类中心的距离将数据划分为k个不同的聚类。
  • 高斯混合模型形成簇作为多变量正常密度组分的混合物。
  • 空间聚类(例如流行的基于密度的DBSCAN)将在高密度区域彼此接近的点分组,在低密度区域跟踪离群点。可以处理任意非凸形状。
  • 自组织地图使用学习数据拓扑和分发的神经网络。
  • 谱聚类将输入数据转换为基于图的表示,其中的簇比在原始特征空间中更好地分离。聚类的数量可以通过研究图的特征值来估计。
  • 隐马尔可夫模型可用于发现序列中的模式,例如生物信息学中的基因和蛋白质。

要点

  • 群集分析经常用于探索性数据分析,用于异常检测和分割,以及监督学习的预处理。
  • K.- 模拟和分层聚类仍然很流行,但对于非凸形形状,需要更高级技术,如DBSCAN和频谱聚类。
  • 可用于发现数据中的分组的其他无监督方法包括维度减少技术和特征排名。

MATLAB中的群集分析示例

使用Imsegkmeans.命令(它使用K.-means算法),MATLAB为原始图像分配了3个聚类(用血毒素和伊红染色的组织),提供组织分割为3类(表示为白色、黑色和灰色)。你可以自己尝试一下,也可以尝试一些相关的细分方法这个代码示例

也可以看看:统计和机器学习工具箱™基于MATLAB的机器学习图像处理工具箱™