选择聚类分析法
本主题简要概述了统计和机器学习工具箱™中可用的聚类方法。
聚类方法
聚类分析,也叫市场细分分析或分类分析,是一种常见的无监督学习方法。无监督学习用于从没有标记响应的输入数据组成的数据集中得出推论。例如,您可以使用聚类分析进行探索性数据分析,以在未标记的数据中找到隐藏的模式或分组。
聚类分析创建组,或者集群的数据。属于同一集群的对象彼此相似,不同于属于不同集群的对象。要量化“相似”和“不同”,您可以使用不同度量(或不同度量)距离度量),这是特定于您的应用程序和数据集的领域。另外,根据应用程序的不同,可以考虑对数据中的变量进行缩放(或标准化),使它们在聚类过程中具有同等的重要性。
统计和机器学习工具箱为这些聚类方法提供了功能:
分层聚类
层次聚类通过创建集群树或系统树图.该树不是一组单一的集群,而是一个多层层次结构,其中一个级别的集群组合起来形成下一个级别的集群。这种多层层次结构允许您选择最适合您的应用程序的集群级别或规模。分层聚类将数据中的每个点分配到一个聚类中。
使用clusterdata
对输入数据进行分层聚类。clusterdata
包含了pdist
,链接
,集群
函数,您可以单独使用它们进行更详细的分析。的系统树图
函数绘制聚类树。有关更多信息,请参见层次聚类简介.
k则和k-Medoids集群
k-均值聚类和k-medoids聚类分区数据k互斥集群。这些集群方法要求您指定集群的数量k.这两个k则和k-medoids集群将数据中的每个点分配到一个集群;然而,与层次聚类不同的是,这些方法是根据实际观测结果(而不是不相似度测量)进行操作的,并创建单个级别的聚类。因此,k——或k-medoids聚类通常比层次聚类更适合于大量数据。
使用kmeans
而且kmedoids
来实现k-均值聚类和k-medoids聚类。有关更多信息,请参见介绍k聚类则而且k-Medoids集群.
基于密度的带噪声应用空间聚类
DBSCAN是一种基于密度的算法,用于识别数据中任意形状的集群和异常值(噪声)。在聚类过程中,DBSCAN识别不属于任何聚类的点,这使得该方法对于基于密度的离群值检测非常有用。不像k则和k-medoids集群,DBSCAN不需要预先知道集群的数量。
高斯混合模型
一个高斯混合模型(GMM)形成集群作为多元正态密度成分的混合物。对于给定的观测,GMM为每个成分密度(或聚类)分配后验概率。后验概率表示观测数据有一定概率属于每个聚类。GMM可以执行硬通过选择后验概率最大的成分作为观察的分配聚类。您还可以使用GMM来执行软,或模糊,通过将观察值分配到多个基于聚类观察值的分数或后验概率的聚类。GMM可能是一种比k-表示簇的大小和相关结构不同时的聚类。
使用fitgmdist
为了适合gmdistribution
对象指向您的数据。你也可以使用gmdistribution
通过指定分布参数来创建GMM对象。方法对拟合的GMM进行群集查询时,可以使用集群
函数。有关更多信息,请参见采用高斯混合模型的聚类.
k-最近邻搜索和半径搜索
k-最近邻搜索查找k数据中与查询点或一组查询点最近的点。相反,半径搜索查找数据中与查询点或查询点集在指定距离内的所有点。这些方法的结果取决于距离度量你指定的。
使用knnsearch
函数查找k-最近的邻居或rangesearch
函数查找输入数据指定距离内的所有邻居。您还可以使用训练数据集创建一个搜索器对象,并将对象和查询数据集传递给对象函数(knnsearch
而且rangesearch
).有关更多信息,请参见使用最近邻进行分类.
谱聚类
谱聚类是一种基于图的搜索算法k数据中任意形状的簇。该技术涉及用低维表示数据。在低维中,数据中的集群被更广泛地分开,使您能够使用诸如k——或k-medoids集群。这个低维是基于拉普拉斯矩阵的特征向量。拉普拉斯矩阵是表示相似图的一种方法,它将数据点之间的局部邻域关系建模为无向图。
使用spectralcluster
对输入数据矩阵或相似度图的相似度矩阵进行谱聚类。spectralcluster
要求您指定集群的数量。然而,光谱聚类算法也提供了一种估计数据中聚类数量的方法。有关更多信息,请参见使用谱聚类划分数据.
聚类方法比较
这个表比较了统计和机器学习工具箱中可用的聚类方法的特性。
方法 | 算法基础 | 算法输入 | 需要指定数量的集群 | 已识别的簇形状 | 对离群点检测很有用 |
---|---|---|---|---|---|
分层聚类 | 物体间距离 | 观测值之间的成对距离 | 没有 | 任意形状的集群,取决于指定的“链接” 算法 |
没有 |
k - means聚类而且k-Medoids集群 | 物体与质心之间的距离 | 实际观察 | 是的 | 具有相等对角协方差的球状簇 | 没有 |
基于密度的有噪声应用的空间聚类(DBSCAN) | 数据中的区域密度 | 实际观测值或观测值之间的成对距离 | 没有 | 任意形状的星团 | 是的 |
高斯混合模型 | 混合高斯分布 | 实际观察 | 是的 | 具有不同协方差结构的球形簇 | 是的 |
最近的邻居 | 物体间距离 | 实际观察 | 没有 | 任意形状的星团 | 可以,取决于指定的邻居数量 |
光谱聚类(使用谱聚类划分数据) | 表示数据点之间连接的图形 | 实际观测或相似矩阵 | 是的,但该算法也提供了一种估计聚类数量的方法 | 任意形状的星团 | 没有 |