机器学习简介，第3部分:监督式机器学习

亚当•Filion MathWorks

学习如何使用有监督的机器学习来训练一个模型，将输入映射到输出，并预测新的输入的输出。

监督式学习技术采取分类或回归的形式。分类技术预测离散反应，而回归技术预测连续反应。本视频介绍了不同的分类和回归算法。它还通过一个示例演示了监督式机器学习在现实世界中是如何工作的。

有监督学习算法既可以接收已知的输入数据集，也可以接收相应的输出数据。然后，它训练一个模型将输入映射到输出，这样它就可以预测对任何新输入数据集的响应。

正如我们前面所讨论的，所有的监督学习技术都采取分类或回归的形式。

分类技术预测离散反应。如果您想要预测的输出可以被分成不同的组，请使用这些技术。

分类问题的例子包括医学成像、语音识别和信用评分。

另一方面，回归技术可以预测持续的响应。

一个很好的例子是任何你预测的输出可以在一定范围内取任意值的应用程序，比如股票价格和声音信号处理。

现在，假设你有一个要解决的分类问题。让我们简单地看看几种可以使用的分类算法。

Logistic回归算法是最简单的算法之一。它用于二进制分类问题，即只有2个可能输出的问题。当数据可以被一个单一的线性边界很好地分隔时，它的工作效果最好。您还可以将它用作与更复杂的分类方法进行比较的基线。

Bagged和boost决策树将预测性较差的单个决策树组合成预测性较强的多棵树的集合。

当预测器是离散的或表现为非线性时，以及当您有更多的时间来训练模型时，最好使用它。

记住还有很多其他的分类算法;这只是最常见的两种。

如果你也有回归问题，有很多算法可供选择。

线性回归是一种统计建模技术。当您需要一个易于解释和快速适应的算法，或者作为评估其他更复杂的回归模型的基线时，可以使用它。

非线性回归有助于描述数据中更复杂的关系。当数据具有很强的非线性趋势且不易转换为线性空间时，可以使用它。

再说一遍，这只是你可以选择的两种常见回归算法;还有很多你可以考虑的。

现在让我们把它们放在一起，看看这个过程在现实世界中是什么样子的。

假设你是一家塑料生产厂的工程师。这家工厂的900名工人一年365天，每天24小时工作。

为了确保在机器故障发生之前捕获它们，您需要开发一个运行状况监视和预测性维护应用程序，该应用程序使用高级机器学习算法对潜在问题进行分类。

在收集、清理和记录工厂机器的数据之后，您的团队评估几种分类技术。对于每一种技术，该团队使用机器数据训练一个分类模型，然后测试该模型预测机器是否即将出现问题的能力。

测试表明，袋装决策树的集合是最准确的。因此，这就是您的团队在开发预测性维护应用程序时的前进方向。

除了尝试不同类型的模型外，还有许多方法可以进一步提高模型的预测能力。让我们简单谈谈其中的三种方法。

第一种是特征选择，即从提供最佳预测能力的数据中确定最相关的输入。记住:一个模型的好坏取决于你用来训练它的特征。

第二，特征变换是降维的一种形式，我们在之前的视频中讨论过。以下是3种最常用的技巧。

通过特性转换，您可以降低数据的复杂性，这可以使数据更容易表示和分析。

超参数优化是提高模型精度的第三种方法。这是一个迭代过程，您的目标是找到如何训练模型的最佳可能设置。您可以多次使用不同的设置对模型进行重新训练，直到您发现能够生成最精确模型的设置组合。

这就是对监督学习的快速了解。在下一个视频中，我们将深入了解一个机器学习工作流示例。

在此之前，请务必查看下面的描述，以获得更多有用的机器学习资源和链接。谢谢收看。