介绍机器学习,第2部分:非监督机器学习

得到非监督机器学习的概述,查找模式数据集没有标记反应。你会使用这种技术当你想探索你的数据,但还没有一个明确的目标,或者你不确定数据包含哪些信息。这也是一个好方法来降低数据的维数。

大多数非监督学习技术是聚类分析的一种形式。聚类算法分为两大类:

这个视频中使用的例子来说明硬和软聚类算法,它展示了为什么你想使用非监督机器学习减少的功能在你的数据集。

非监督机器学习查找模式数据集没有标记反应。

你会使用这种技术当你想探索你的数据,但还没有一个明确的目标,或者你不确定数据包含哪些信息。

这也是一个好方法来降低数据的维数。

正如我们前面所讨论的那样,大多数无监督学习技术是聚类分析的一种形式,它将数据分组基于共同的特点。

聚类算法分为两大类:

的背景下,这是一个硬聚类的例子:

说你是一个工程师构建手机塔。你需要决定在哪里,有多少大楼建设。确保你提供最好的信号接收,你需要找到塔内的一群人。

首先,您需要一个初始猜测集群的数量。要做到这一点,比较场景和三塔和四塔看看每个能够提供服务。

因为一个电话一次只能与一个塔,这是一个艰难的聚类问题。

为此,您可以使用k - means聚类,因为k - means算法对待每个观测数据作为对象在空间位置。它发现集群中心,或手段,减少总距离数据点集群中心。

所以,这是硬聚类。让我们看看如何使用软聚类算法在现实世界中。

假装你是一位生物学家分析基因在正常和不正常的细胞分裂。你有两个组织样本数据,你想进行比较来确定特定的模式与癌症相关的基因特性。

因为相同的基因可以参与一些生物过程,没有一个单一的基因可能只属于一个集群。

模糊c均值算法应用于数据,然后想象集群,看哪个组的基因以类似的方式采取行动。

然后,您可以使用这个模型来帮助看到哪些特性与正常或不正常的细胞分裂。

这涵盖了两种主要的方法(软硬集群)探索数据与未标记反应。

记住,你还可以使用非监督机器学习来减少功能,或维度,你的数据。

你这样做让你的数据更复杂——特别是如果你正在使用的数据有成百上千的变量。通过减少数据的复杂性,你可以专注于重要的特点和获得更好的见解。

让我们看看三个常见的降维算法:

在这个视频中,我们将仔细看看硬和软聚类算法,我们还展示了为什么你想使用非监督机器学习来减少特征的数量在你的数据集。

至于你的下一个步骤:

无监督学习可能是你的最终目标。如果你只是想段数据,聚类算法是一种合适的选择。

另一方面,您可能希望使用无监督学习作为监督降维一步学习。下一节我们将仔细看看监督学习。

现在,这个视频结束。别忘了看看下面的描述,更多的资源和链接。