来自系列:机器学习简介
Seth Deland,Mathworks
概述无监督的机器学习,它在数据集中寻找没有标记响应的数据集模式。当您想要探索您的数据但尚未拥有特定目标时,您会使用此技术,或者您不确定数据包含的信息。这也是减少数据的维度的好方法。
大多数无监督的学习技术是一种集群分析的形式。聚类算法落入两组广泛的组:
此视频使用示例来说明硬群和软群算法,它显示为什么要使用无监督的机器学习,以减少数据集中的功能数量。
无监督的机器学习在数据集中寻找没有标记响应的模式。
当您想要探索您的数据但尚未拥有特定目标时,您会使用此技术,或者您不确定数据包含的信息。
这也是减少数据维度的好方法。
正如我们之前讨论过的那样,大多数无监督的学习技术都是一种群集分析形式,其基于共享特征将数据分成组。
聚类算法落入两组广泛的组:
对于上下文,这是一个硬群体示例:
说你是一名工程师建设手机塔。您需要决定在哪里以及塔楼的位置。为了确保您提供最佳的信号接收,您需要在人群中找到塔。
要启动,您需要在群集数量的次数中初次猜测。为此,比较有三个塔楼和四座塔的场景,看看每个都能提供服务。
因为手机一次只能与一座塔通话,这是一个硬的聚类问题。
为此,您可以使用K-Means群集,因为K-Means算法将数据中的每个观察视为具有空间中位置的对象。它找到集群中心或手段,从而将数据点与集群中心的总距离减少。
所以,这是艰苦的聚类。让我们看看如何在现实世界中使用软聚类算法。
假装您是一种分析涉及正常和异常细胞分裂的基因的生物学家。您有来自两个组织样本的数据,您希望将它们进行比较以确定某些基因特征模式是否与癌症相关。
因为相同的基因可以参与若干生物学过程,所以没有单个基因仅可能属于一种簇。
将模糊C-MEASE算法应用于数据,然后可视化群集以查看哪些基因组在类似的方式。
然后,您可以使用此模型来帮助了解与正常或异常单元分区相关的功能。
这涵盖了两个主要技术(硬群和软群),用于探索具有未标记响应的数据。
但请记住,您也可以使用无监督的机器学习来减少数据的功能或维度的数量。
您可以执行此操作,使您的数据更加复杂 - 特别是如果您正在使用具有数百或数千个变量的数据。通过降低数据的复杂性,您可以专注于重要的功能并获得更好的见解。
让我们来看看3个常见的维度减少算法:
在此视频中,我们仔细研究了硬群和软群集算法,我们还显示为什么您想要使用无监督的机器学习来减少数据集中的功能数量。
至于下一步:
无监督的学习可能是您最终目标。如果您只是在寻找段数据,则群集算法是一个适当的选择。
另一方面,您可能希望使用无监督的学习作为监督学习的维度减少步骤。在我们的下一个视频中,我们将仔细看看监督学习。
现在,它包装了这个视频。不要忘记查看以下描述以获取更多资源和链接。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。