找出数据中隐藏的模式或内在结构

无监督学习是一种机器学习算法,用于在没有人工干预的情况下从数据集得出推论,而监督学习则是在数据旁边提供标签。

最常见的无监督学习方法是聚类分析,它应用聚类方法探索数据,发现数据中隐藏的模式或分组。

用MATLAB你可以应用许多流行的聚类算法:

  • 分层聚类:通过创建集群树来构建集群的多级层次结构
  • k - meansk-medoids集群:分区数据k基于距离的不同簇。
  • 高斯混合模型:将集群模型为多元正态密度成分的混合物
  • 基于密度的空间聚类(DBSCAN):将高密度区域内彼此接近的点分组,在低密度区域跟踪离群点
  • 自组织映射:使用神经网络来学习数据的拓扑结构和分布
  • 谱聚类:基于图的聚类,可以处理任意非凸形状

其他应用无监督学习的方法包括半监督学习和无监督特征排序。半监督学习减少了监督学习中对标注数据的需要。对整个数据集进行聚类,建立有标签数据和无标签数据之间的相似性,并将标签传播到以前没有标签的相似聚类成员上。

无监督特征排名给没有给定预测目标或反应的特征打分。MATLAB®统计和机器学习工具箱™金宝app支持使用拉普拉斯分数进行无监督排名。

要点

  • 无监督学习通常在监督学习之前应用,用于在探索性数据分析中识别特征,并基于分组建立类。
  • K-means和层次聚类仍然很流行。只有一些聚类方法可以处理任意非凸形状,包括MATLAB支持的DBSCAN、层次聚类和谱聚类。金宝app
  • 无监督学习(聚类)也可以用于压缩数据。
  • 无监督特征排序可以更有效地将基于距离的聚类应用于大数据集。

参见:统计和机器学习工具箱基于MATLAB的机器学习图像处理工具箱