机器学习简介，第2部分:无监督机器学习

赛斯迪兰,MathWorks

了解无监督机器学习的概述，它在没有标记响应的数据集中寻找模式。当您想要研究数据，但还没有特定的目标，或者您不确定数据包含什么信息时，可以使用这种技术。这也是降低数据维数的好方法。

大多数无监督学习技术都是聚类分析的一种形式。聚类算法分为两大类:

本视频使用示例来说明硬聚类和软聚类算法，并说明为什么要使用无监督机器学习来减少数据集中的特征数量。

无监督机器学习在没有标记响应的数据集中寻找模式。

当您想要研究数据，但还没有特定的目标，或者您不确定数据包含什么信息时，可以使用这种技术。

这也是降低数据维数的好方法。

正如我们之前讨论过的，大多数无监督学习技术都是聚类分析的一种形式，它根据共享的特征将数据分成组。

聚类算法分为两大类:

下面是一个硬集群示例:

假设你是一个建造手机信号塔的工程师。你需要决定在哪里以及建造多少塔。为了确保你能提供最好的信号接收，你需要把信号塔定位在人群密集区。

首先，您需要对集群的数量进行初步猜测。要做到这一点，请比较三个塔和四个塔的场景，看看每个塔提供服务的能力如何。

因为一个电话一次只能与一个发射塔通话，这是一个困难的集群问题。

为此，您可以使用k-means聚类，因为k-means算法将数据中的每个观测都视为在空间中具有位置的对象。它找到群集中心，或方法，减少数据点到它们的群集中心的总距离。

这就是硬聚类。让我们看看如何在现实世界中使用软聚类算法。

假设你是一个生物学家，分析正常和异常细胞分裂的基因。你有来自两个组织样本的数据，你想要比较它们以确定特定的基因特征模式是否与癌症相关。

因为相同的基因可能涉及多个生物过程，没有一个基因可能只属于一个集群。

对数据应用模糊c均值算法，然后将聚类可视化，看看哪些基因组的行为方式相似。

然后，您可以使用这个模型来帮助查看哪些特征与正常或异常的细胞分裂相关。

本文将介绍两种主要的技术(硬聚类和软聚类)，用于研究带有未标记响应的数据。

记住，你也可以使用无监督机器学习来减少特征的数量，或数据的维度。

这样做是为了使数据不那么复杂——特别是在处理有成百上千个变量的数据时。通过降低数据的复杂性，您能够专注于重要的功能，并获得更好的见解。

让我们来看看3种常见的降维算法:

在这个视频中，我们更深入地了解了硬聚类和软聚类算法，我们还展示了为什么要使用无监督机器学习来减少数据集中的特征数量。

至于你的下一步:

无监督学习可能是你的最终目标。如果您只是想要分割数据，那么群集算法是一个合适的选择。

另一方面，你可能想使用非监督学习作为监督学习的降维步骤。在下个视频中，我们将深入探讨指导学习。

现在，这段视频结束了。不要忘记查看下面的描述以获得更多的资源和链接。