监督机器学习的目的是建立一个模型,这是基于存在不确定性存在的证据的预测。作为自适应算法识别数据中的模式,计算机“学习”观察结果。当暴露于更多观察时,计算机可以提高其预测性能。
具体地,监督的学习算法采用已知的输入数据集和对数据(输出)的已知响应,以及火车一种模型,用于生成对新数据响应的合理预测的模型。
例如,假设你想预测某人是否会在一年内心脏病发作。你有一组以前病人的数据,包括年龄、体重、身高、血压等。你知道之前的病人在一年内是否有心脏病发作。因此,问题在于将所有现有数据整合到一个模型中,从而预测一个新人在一年内是否会心脏病发作。
您可以将整个输入数据集看作一个异构矩阵。矩阵的行称为观察那例子, 或者实例,每个都包含一个主题(示例中的患者)的一组度量值。矩阵的列称为预测因子那属性, 或者特征,每个变量都代表了对每个受试者的测量值(示例中的年龄、体重、身高等)。您可以将响应数据看作一个列向量,其中每一行包含输入数据中相应观察结果的输出(患者是否有心脏病发作)。来合身或火车一个有监督的学习模型,选择一个合适的算法,然后将输入和响应数据传递给它。
监督学习分为两大类:分类和回归。
在分类,目标是分配一个类(或标签)从一组有限的课程到观察。也就是说,响应是分类变量。应用程序包括垃圾邮件过滤器,广告推荐系统和图像和语音识别。预测患者是否会在一年内具有心脏病发作是一个分类问题,并且可能的课程是真正的
和假
.分类算法通常适用于名义响应值。但是,一些算法可以容纳序数类(见fitcecoc
).
在回归,目标是预测一个观察的连续测量。也就是说,响应变量是实数。应用包括预测股票价格、能源消耗或疾病发生率。
统计和机器学习工具箱™监督学习功能包括流衬里的对象框架。您可以有效地培训各种算法,将模型组合成集合,评估模型性能,交叉验证和预测新数据的响应。
虽然有许多统计和机器学习工具箱算法进行监督学习,但大多数都使用相同的基本工作流程来获取预测模型。(关于集合学习的步骤的详细说明集成学习框架.)监督学习的步骤如下:
所有监督的学习方法都以输入数据矩阵开头,通常称为X
在这里。每一行的X
代表一个观察。每一列的X
表示一个变量或预测器。用南
价值X
.统计和机器学习工具箱的监督学习算法可以处理南
值,可以通过忽略它们或忽略任何带有南
价值。
您可以为响应数据使用各种数据类型y
.中的每个元素y
表示对相应行的响应X
.失踪观察y
数据将被忽略。
对于回归,y
必须是一个数字向量,其元素数与的行数相同X
.
的分类,y
可以是任何这些数据类型。此表还包含包含缺失条目的方法。
数据类型 | 失踪的条目 |
---|---|
数值向量 | 南 |
分类载体 | <定义> |
字符数组 | 排空间 |
字符串数组 | < >失踪 或“ |
字符向量的单元格数组 | ” |
逻辑向量 | (不能代表) |
算法的几种特征之间存在权衡,例如:
速度的训练
内存使用情况
对新数据的预测准确性
透明度或可解释性,意味着您可以了解算法使其预测的原因有多容易
算法的细节出现在分类算法的特点.关于集合算法的更多详细信息选择适用的集成聚合方法.
你使用的拟合函数取决于你选择的算法。
算法 | 拟合函数 |
---|---|
分类树 | fitctree |
回归树 | fitrtree |
判别分析(分类) | fitcdiscr |
K.最近的邻居(分类) | fitcknn |
朴素贝叶斯(分类) | fitcnb |
金宝app支持向量机(SVM)分类 | fitcsvm |
支持向量机的回归 | fitrsvm |
支持向量机或其他分类器的多类模型 | fitcecoc |
分类集合体 | fitcensemble. |
回归集合体 | fitrensemble |
分类或回归树系列(例如,随机森林[1]) | TreeBagger |
有关这些算法的比较,请参见分类算法的特点.
检验所得到的拟合模型准确性的三种主要方法是:
检查重新替换错误。有关示例,请参见:
检查交叉验证错误。有关示例,请参见:
检查袋装决策树的袋外错误。有关示例,请参见:
在验证模型之后,您可能想要更改它以获得更好的准确性、更快的速度,或者使用更少的内存。
改变拟合参数以获得更精确的模型。有关示例,请参见:
改变拟合参数以获得更小的模型。这有时会使模型更精确。有关示例,请参见:
尝试一种不同的算法。有关适用的选择,请参阅:
当您对某一型号满意时,可以使用适当的工具对其进行修整紧凑的
函数(紧凑的
分类树,紧凑的
对于回归树,紧凑的
判别分析,紧凑的
朴素贝叶斯、紧凑的
支持向量机,紧凑的
对于Ecoc模型,紧凑的
对于分类集合,和紧凑的
对于回归合奏。紧凑的
从模型中删除预测,例如决策树的修剪信息以减少内存消耗,从而删除训练数据和其他属性。因为K.神经网络分类模型需要所有的训练数据来预测标签,不能减小标签的大小ClassificationKNN
模型。
为预测大多数拟合模型的分类或回归反应,使用预测
方法:
Ypredict =预测(Obj,xnew)
obj
是拟合模型或拟合紧凑模型。
Xnew.
是新的输入数据。
Ypredicted
是预测的响应,分类或回归。
该表显示了各种监督学习算法的典型特征。任何特定情况下的特征都可能与所列的特征不同。使用这个表格作为你最初选择算法的指南。决定在速度、内存使用、灵活性和可解释性方面的权衡。
提示
首先尝试使用决策树或判别器,因为这些分类器快速且易于解释。如果模型在预测响应方面不够准确,可以尝试其他具有更高灵活性的分类器。
要控制灵活性,请参阅每个分类器类型的详细信息。为了避免过度拟合,要寻找灵活性较低但提供足够精度的模型。
分类器 | 多级支持金宝app | 分类预测器支持金宝app | 预测的速度 | 内存使用情况 | 可解释性 |
---|---|---|---|---|---|
决策树-fitctree |
是的 | 是的 | 快速地 | 小的 | 简单 |
判别分析-fitcdiscr |
是的 | 没有 | 快速地 | 线性的小,大型为二次 | 简单 |
SVM-fitcsvm |
不。 使用多个二进制SVM分类器使用 fitcecoc . |
是的 | 线性的媒介。 为别人慢。 |
线性的媒介。 所有其他:medium for multiclass, large for binary。 |
易于线性SVM。 所有其他内核类型都很难。 |
朴素贝叶斯-fitcnb |
是的 | 是的 | 媒介简单分布。 对于内核分布或高维数据,速度较慢 |
对于简单的分布来说很小。 用于内核分布或高维数据的介质 |
简单 |
最近的邻居-fitcknn |
是的 | 是的 | 平方米慢。 中为他人。 |
媒介 | 硬 |
乐团-fitcensemble. 和fitrensemble |
是的 | 是的 | 快到媒介取决于算法的选择 | 根据算法的选择,低至高。 | 硬 |
该表中的结果基于对许多数据集的分析。该研究中的数据集具有高达7000个观察,80个预测因子和50级。此列表定义表中的术语。
速度:
快 - 0.01秒
中学 - 1秒
慢 - 100秒
记忆
小- 1 mb
中等 - 4MB.
大- 100 mb
笔记
该表提供了一般指南。您的结果取决于您的数据和机器的速度。
该表描述了对每个分类器的预测器的数据类型支持。金宝app
分类器 | 所有预测器数字 | 所有预测分类 | 有些是绝对的,有些是数字的 |
---|---|---|---|
决策树 | 是的 | 是的 | 是的 |
判别分析 | 是的 | 没有 | 没有 |
SVM | 是的 | 是的 | 是的 |
朴素贝叶斯 | 是的 | 是的 | 是的 |
最近的邻居 | 欧氏距离只有 | 只有汉明距离 | 没有 |
乐团 | 是的 | 是的,除了判别分析分类器的子空间集合 | 是的,除了子空间集合 |
[1] Breiman,L。“随机森林。”机器学习45,2001,第5-32页。