无监督学习是一种机器学习算法,用于在不需要人工干预的情况下从数据集得出推论,而监督学习则是在数据中提供标签。
最常见的无监督学习方法是聚类分析,它应用聚类方法来探索数据,并发现数据中的隐藏模式或分组。
使用MATLAB,您可以应用许多流行的聚类算法:
- 分层聚类:通过创建集群树来构建集群的多级层次结构
- k - means和k-medoids集群:分区数据k基于距离的不同簇。
- 高斯混合模型:模型集群作为多元正态密度成分的混合物
- 基于密度的空间聚类:对高密度区域中彼此接近的点进行分组,跟踪低密度区域中的异常值
- 自组织映射:使用神经网络来学习数据的拓扑结构和分布
- 谱聚类:基于图的聚类,可以处理任意非凸形状
其他应用无监督学习的方法包括半监督学习和无监督特征排序。半监督学习减少了监督学习中对标记数据的需求。将聚类应用于整个数据集,在标记数据和未标记数据之间建立相似性,并将标签传播到之前未标记和相似的聚类成员。
无监督特征排名在没有给定预测目标或响应的情况下给特征打分。MATLAB®和统计和机器学习工具箱™金宝app支持使用拉普拉斯分数进行无监督排名。
要点
- 无监督学习通常在监督学习之前应用,用于探索性数据分析中识别特征,并基于分组建立类。
- k均值和层次聚类仍然很流行。只有一些聚类方法可以处理任意非凸形状,包括MATLAB中支持的DBSCAN、层次聚类和谱聚类。金宝app
- 无监督学习(聚类)也可以用来压缩数据。
- 无监督特征排序可以更有效地将基于距离的聚类应用于大数据集。