从系列:机器学习概论
学习如何使用有监督的机器学习来训练一个模型,将输入映射到输出,并预测新的输入的输出。
监督式学习技术采取分类或回归的形式。分类技术预测离散响应,而回归技术预测连续响应。该视频遍历不同的分类和回归算法。它还介绍了一个示例,说明了在现实世界中如何提供监督机器学习的工作。
监督的学习算法采用已知的一组输入数据和相应的输出数据。然后,它会训练模型来映射输出的输入,因此它可以预测对任何新的输入数据集的响应。
正如我们前面所讨论的,所有的监督学习技术都采取分类或回归的形式。
分类技术预测离散响应。如果要预测的输出可以将这些技术分为不同的组,请使用这些技术。
分类问题的示例包括医学成像,语音识别和信用评分。
另一方面,回归技术可以预测持续的响应。
一个很好的例子是任何你预测的输出可以在一定范围内取任意值的应用程序,比如股票价格和声音信号处理。
现在,说你有一个你试图解决的分类问题。让我们简要介绍一下你可以使用的一些分类算法。
Logistic回归算法是最简单的回归之一。它与二进制分类问题一起使用,这意味着只有2个可能的输出的问题。当数据可以通过单线性边界进行充分利用时,它最佳。您还可以将其作为基准进行比较,以便与更复杂的分类方法进行比较。
Bagged和boost决策树将预测性较差的单个决策树组合成预测性较强的多棵树的集合。
当预测器是离散的或表现为非线性时,以及当您有更多的时间来训练模型时,最好使用它。
记住还有很多其他的分类算法;这只是最常见的两种。
如果您有回归问题,则有很多算法可以选择。
线性回归是一种统计建模技术。当您需要一个易于解释和快速适应的算法,或者作为评估其他更复杂的回归模型的基线时,可以使用它。
非线性回归有助于描述数据中更复杂的关系。当数据具有很强的非线性趋势且不易转换为线性空间时,可以使用它。
再说一遍,这只是你可以选择的两种常见回归算法;还有很多你可以考虑的。
现在让我们把它们放在一起,看看这个过程在现实世界中是什么样子的。
假设你是一家塑料生产厂的工程师。这家工厂的900名工人一年365天,每天24小时工作。
为了确保在机器故障发生之前捕获它们,您需要开发一个运行状况监视和预测性维护应用程序,该应用程序使用高级机器学习算法对潜在问题进行分类。
从工厂中的机器收集,清洁和记录数据后,您的团队会评估几种分类技术。对于每种技术,团队使用机器数据列举分类模型,然后测试模型预测机器即将出现问题的能力。
测试表明,袋装决策树的集合是最准确的。因此,这就是您的团队在开发预测性维护应用程序时的前进方向。
除了尝试不同类型的模型之外,还有很多方法可以进一步提高模型的预测力量。让我们简单地谈论只有三种方法......
第一种是特征选择,即从提供最佳预测能力的数据中确定最相关的输入。记住:一个模型的好坏取决于你用来训练它的特征。
其次,特征转换是一种维度减少的一种形式,我们在先前的视频中讨论。以下是3个最常用的技术。
使用功能转换,减少数据的复杂性,可以使其更容易代表和分析。
超参数优化是提高模型精度的第三种方法。这是一个迭代过程,您的目标是找到如何训练模型的最佳可能设置。您可以多次使用不同的设置对模型进行重新训练,直到您发现能够生成最精确模型的设置组合。
所以这是一个快速看待监督学习。在我们的下一个视频中,我们将深入了解一个示例机器学习工作流程。
在此之前,请务必查看下面的描述,以获取更多有用的机器学习资源和链接。谢谢你的观点。
您还可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。