从系列:机器学习简介
赛斯迪兰,MathWorks
概述无监督机器学习,它在没有标记响应的数据集中寻找模式。当您想要研究数据但还没有明确的目标,或者不确定数据包含什么信息时,您可以使用这种技术。这也是一种降低数据维度的好方法。
大多数无监督学习技术是聚类分析的一种形式。聚类算法分为两大类:
此视频使用示例来说明硬群和软群算法,它显示为什么要使用无监督的机器学习,以减少数据集中的功能数量。
无监督机器学习在没有标记响应的数据集中寻找模式。
当您想要研究数据但还没有明确的目标,或者不确定数据包含什么信息时,您可以使用这种技术。
这也是一种减少数据维度的好方法。
正如我们之前讨论过的那样,大多数无监督的学习技术都是一种群集分析形式,其基于共享特征将数据分成组。
聚类算法分为两大类:
下面是一个复杂的集群示例:
假设你是一个建造手机信号塔的工程师。你需要决定在哪里建造多少座塔。为了确保你能提供最好的信号接收,你需要在人群中确定发射塔的位置。
要启动,您需要在群集数量的次数中初次猜测。为此,比较有三个塔楼和四座塔的场景,看看每个都能提供服务。
因为一个电话一次只能与一个信号塔通话,这是一个很难的集群问题。
为此,您可以使用k-means聚类,因为k-means算法将数据中的每个观测结果视为一个在空间中具有位置的对象。它发现簇中心,或意味着减少从数据点到它们的簇中心的总距离。
所以,这是很难聚类的。让我们看看如何在现实世界中使用软聚类算法。
假装您是一种分析涉及正常和异常细胞分裂的基因的生物学家。您有来自两个组织样本的数据,您希望将它们进行比较以确定某些基因特征模式是否与癌症相关。
由于相同的基因可能参与多个生物过程,因此没有一个单一的基因可能只属于一个集群。
对数据应用模糊c均值算法,然后将聚类可视化,看看哪组基因的行为方式相似。
然后,您可以使用这个模型来帮助查看哪些特征与正常或异常的细胞分裂相关。
这涵盖了两个主要技术(硬群和软群),用于探索具有未标记响应的数据。
但请记住,您也可以使用无监督的机器学习来减少数据的特征数量或维度。
这样做是为了使您的数据不那么复杂——特别是当您处理的数据有数百或数千个变量时。通过减少数据的复杂性,您可以专注于重要的特性并获得更好的见解。
让我们看看3种常见的降维算法:
在此视频中,我们仔细研究了硬群和软群集算法,我们还显示为什么您想要使用无监督的机器学习来减少数据集中的功能数量。
至于下一步:
无监督的学习可能是您最终目标。如果您只是在寻找段数据,则群集算法是一个适当的选择。
另一方面,您可能希望使用无监督的学习作为监督学习的维度减少步骤。在我们的下一个视频中,我们将仔细看看监督学习。
这个视频到此结束。不要忘记查看下面的描述获取更多资源和链接。
您还可以从以下列表中选择一个网站:
请选择表现最佳的中国网站(中文或英文)。MathWorks的其他国家网站并没有针对您所在位置的访问进行优化。