无监督学习

查找数据中隐藏的模式或内在结构

无监督学习是一种机器学习算法,用于在无需人工干预的情况下从数据集中提取推论,与有监督学习不同,有监督学习在数据中提供标签。

最常见的无监督学习方法是聚类分析,它应用聚类方法来探索数据并发现数据中隐藏的模式或分组。

使用MATLAB,您可以应用许多流行的聚类算法:

  • 层次聚类:通过创建群集树来构建群集的多级层次结构
  • 均值k-medoids聚类:将数据划分为K基于距离的不同簇。
  • 高斯混合模型:将群集建模为多变量正态密度分量的混合
  • 基于密度的空间聚类(DBSCAN):在高密度的区域彼此接近的群体点,在低密度区域中跟踪异常值
  • 自组织映射:使用学习数据拓扑和分布的神经网络
  • 光谱聚类:基于图形的群集,可处理任意非凸形状

应用无监督学习的其他方法包括半监督学习和无监督特征排序。半监督学习减少了监督学习中对标记数据的需求。应用于整个数据集的聚类建立了标记数据和未标记数据之间的相似性,并将标签传播到以前未标记和相似的聚类成员。

无监督特征排序为没有给定预测目标或响应的特征分配分数®统计和机器学习工具箱™金宝app支持使用拉普拉斯分数进行无监督排名。

要点

  • 无监督学习通常在有监督学习之前应用,用于在探索性数据分析中识别特征,并基于分组建立类。
  • k-均值和层次聚类仍然很流行。只有一些聚类方法可以处理任意非凸形状,包括MATLAB支持的:DBSCAN、层次聚类和谱聚类。金宝app
  • 无监督学习(聚类)也可用于压缩数据。
  • 无监督特征排序可以更有效地将基于距离的聚类应用于大型数据集。

另见:统计和机器学习工具箱,基于MATLAB的机器学习,图像处理工具箱