机器学习导论，第2部分：无监督机器学习

赛斯·德兰，马修斯

获得无监督机器学习的概述，它在没有标记响应的数据集中查找模式。当您想探索数据但还没有特定目标，或者不确定数据包含哪些信息时，可以使用此技术。这也是减少数据维度的一个好方法。

大多数无监督学习技术是聚类分析的一种形式。聚类算法分为两大类：

本视频使用示例来说明硬聚类和软聚类算法，并说明了为什么您希望使用无监督机器学习来减少数据集中的特征数量。

无监督机器学习在没有标记响应的数据集中寻找模式。

当您想探索数据但还没有特定目标，或者不确定数据包含哪些信息时，可以使用此技术。

这也是减少数据维度的一个好方法。

如前所述，大多数无监督学习技术是聚类分析的一种形式，它根据共享特征将数据分成若干组。

聚类算法分为两大类：

对于上下文，下面是一个硬集群示例：

假设你是一名建造手机发射塔的工程师。您需要决定在何处以及建造多少座塔楼。为了确保你提供最好的信号接收，你需要在人群中找到塔楼。

首先，您需要对集群的数量进行初步猜测。为此，将场景与三座塔和四座塔进行比较，看看每座塔能够提供多好的服务。

因为一部电话一次只能与一座塔通话，这是一个很难解决的集群问题。

为此，可以使用k-means聚类，因为k-means算法将数据中的每个观察视为在空间中具有位置的对象。它可以找到群集中心，或减少从数据点到其群集中心的总距离的方法。

所以，这很难聚类。让我们看看如何在现实世界中使用软聚类算法。

假设你是一位分析正常和异常细胞分裂相关基因的生物学家。你有两个组织样本的数据，你想比较它们以确定某些基因特征模式是否与癌症相关。

因为相同的基因可以参与多个生物过程，所以没有一个基因可能只属于一个簇。

对数据应用模糊c-均值算法，然后可视化聚类，以查看哪些基因组的行为方式相似。

然后，您可以使用此模型帮助查看哪些特征与正常或异常细胞分裂相关。

这包括两种主要技术（硬聚类和软聚类），用于探索具有未标记响应的数据。

但是请记住，您也可以使用无监督机器学习来减少数据的特征数量或维度。

您可以这样做，以降低数据的复杂性，尤其是在处理具有数百或数千个变量的数据时。通过降低数据的复杂性，您可以专注于重要功能并获得更好的洞察力。

让我们看看3种常见的降维算法：

在本视频中，我们仔细研究了硬聚类算法和软聚类算法，并说明了为什么要使用无监督机器学习来减少数据集中的特征数量。

至于你接下来的步骤：

无监督学习可能是你的最终目标。如果你只是想分割数据，那么聚类算法是一个合适的选择。

另一方面，您可能希望使用无监督学习作为监督学习的降维步骤。在下一个视频中，我们将更详细地了解监督学习。

现在，这段视频到此结束。不要忘记查看下面的描述以获取更多资源和链接。