监督机器学习的目的是建立一个模型,这是基于存在不确定性存在的证据的预测。作为自适应算法识别数据中的模式,计算机“学习”观察结果。当暴露于更多观察时,计算机可以提高其预测性能。
具体地,监督的学习算法采用已知的输入数据集和对数据(输出)的已知响应,以及火车一种模型,用于生成对新数据响应的合理预测的模型。
例如,假设您想预测某人是否会在一年内进行心脏病发作。您有一套关于先前患者的数据,包括年龄,体重,高度,血压等。您知道先前患者是否在其测量的一年内具有心脏病发作。因此,问题是将所有现有数据组合成一个模型,该模型可以预测一年内新人是否会有心脏病发作。
您可以将整个输入数据集视为异构矩阵。称为矩阵的行观察那例子, 或者实例,并且每个含有对受试者的一组测量(示例中的患者)。调用矩阵的列预测因子那属性, 或者特征并且每个都是表示在示例中的每个主题(年龄,重量,高度等)上采取的测量的变量。您可以将响应数据视为列向量,其中每行包含输入数据中相应观察的输出(患者是否有心脏病发作)。到合身或者火车监督学习模型,选择合适的算法,然后将输入和响应数据传递给它。
监督学习分为两种广泛类别:分类和回归。
在分类,目标是分配一个类(或标签)从一组有限的课程到观察。也就是说,响应是分类变量。应用程序包括垃圾邮件过滤器,广告推荐系统和图像和语音识别。预测患者是否会在一年内具有心脏病发作是一个分类问题,并且可能的课程是真的
和错误的
。分类算法通常适用于名义响应值。但是,一些算法可以容纳序数类(见Fitcecoc.
)。
在回归,目标是预测观察的连续测量。也就是说,响应变量是实数。应用包括预测股票价格,能源消耗或疾病发病率。
统计和机器学习工具箱™监督学习功能包括流衬里的对象框架。您可以有效地培训各种算法,将模型组合成集合,评估模型性能,交叉验证和预测新数据的响应。
虽然有许多统计和机器学习工具箱算法进行监督学习,但大多数都使用相同的基本工作流程来获取预测模型。(关于集合学习的步骤的详细说明集合学习的框架。)监督学习的步骤是:
所有监督的学习方法都以输入数据矩阵开头,通常称为X
这里。每一排X
代表一个观察。每列X
表示一个变量或预测器。代表缺失的条目南
价值X
。统计和机器学习工具箱监督学习算法可以处理南
值,无论是忽略它们还是忽略任何行南
价值。
您可以使用各种数据类型进行响应数据y
。每个元素y
表示对相应行的响应X
。失踪观察y
数据被忽略。
回归,y
必须是一个数字向量,其中元素数量相同,作为行的行数X
。
分类,y
可以是任何这些数据类型。此表还包含包含缺失条目的方法。
数据类型 | 缺少条目 |
---|---|
数字矢量 | 南 |
分类载体 | <未定义> |
字符阵列 | 空间行 |
字符串数组 | <缺失> 或者“ |
字符向量的单元格阵列 | '' |
逻辑矢量 | (不能代表) |
算法的几种特征之间存在权衡,例如:
培训速度
内存使用情况
新数据的预测准确性
透明度或可解释性,意味着您可以了解算法使其预测的原因有多容易
算法的细节出现在分类算法的特征。关于集合算法的更多详细信息选择适用的集合聚合方法。
您使用的拟合功能取决于您选择的算法。
算法 | 拟合功能 |
---|---|
分类树木 | fitctree |
回归树木 | fitrtree. |
判别分析(分类) | fitcdiscr. |
K.- 最邻居(分类) | Fitcknn. |
天真的贝叶斯(分类) | Fitcnb. |
金宝app支持矢量机器(SVM)进行分类 | fitcsvm. |
svm回归 | Fitrsvm. |
用于SVM或其他分类器的多键模型 | Fitcecoc. |
分类集合 | fitcensemble. |
回归合奏 | fitrensemble. |
分类或回归树系列(例如,随机森林[1]) | treebagger |
为了比较这些算法,请参阅分类算法的特征。
检查所得拟合模型精度的三种主要方法是:
检查重新提交错误。例如,请参阅:
检查交叉验证错误。例如,请参阅:
检查袋装决策树的袋子外错误。例如,请参阅:
在验证模型后,您可能希望将其更改为更好的准确性,更好的速度,或使用较少的内存。
更改拟合参数以尝试获得更准确的模型。例如,请参阅:
改变拟合参数以尝试获得更小的模型。这有时会提供更准确的模型。例如,请参阅:
尝试不同的算法。对于适用的选择,请参阅:
对某种类型的模型满意时,您可以使用适当的方式修剪它袖珍的
功能 (袖珍的
对于分类树,袖珍的
对于回归树,袖珍的
为了判别分析,袖珍的
对于天真的贝叶斯,袖珍的
对于SVM,袖珍的
对于Ecoc模型,袖珍的
对于分类集合,和袖珍的
对于回归合奏。袖珍的
从模型中删除预测,例如决策树的修剪信息以减少内存消耗,从而删除训练数据和其他属性。因为K.NN分类模型需要所有培训数据来预测标签,您无法减小尺寸ClassificationKnn.
模型。
为了预测大多数拟合模型的分类或回归响应,使用预测
方法:
Ypredict =预测(Obj,xnew)
obj.
是拟合型号或拟合的紧凑型型号。
Xnew.
是新的输入数据。
ypreed ..
是预测的响应,分类或回归。
该表显示了各种监督学习算法的典型特征。任何特定案例中的特征都可以从列出的情况不同。使用该表作为初始选择算法的指南。根据速度,内存使用,灵活性和解释性决定您想要的权衡。
小费
首先尝试决策树或判别,因为这些分类器是快速且易于解释的。如果模型不足以预测响应,则尝试具有更高灵活性的其他分类器。
要控制灵活性,请参阅每个分类器类型的详细信息。为避免过度装备,请查看较低灵活性的模型,提供足够的精度。
分类器 | 多牌支持金宝app | 分类预测器支持金宝app | 预测速度 | 内存使用情况 | 解释性 |
---|---|---|---|---|---|
决策树-fitctree |
是的 | 是的 | 快速地 | 小的 | 简单 |
判别分析-fitcdiscr. |
是的 | 不 | 快速地 | 线性的小,大型为二次 | 简单 |
SVM-fitcsvm. |
不。 使用多个二进制SVM分类器使用 Fitcecoc. 。 |
是的 | 线性的媒介。 为别人慢慢慢。 |
线性的媒介。 所有其他人:多包子的媒体,大型为二元。 |
易于线性SVM。 所有其他内核类型都很难。 |
天真的贝父-Fitcnb. |
是的 | 是的 | 媒介简单分布。 迟钝的内核分布或高维数据 |
小型分布。 内核分布或高维数据的媒介 |
简单 |
最近的邻居-Fitcknn. |
是的 | 是的 | 平方米慢。 媒体为别人。 |
中等的 | 难的 |
合奏-fitcensemble. 和fitrensemble. |
是的 | 是的 | 根据算法的选择快速到介质 | 根据算法的选择,低至高。 | 难的 |
该表中的结果基于对许多数据集的分析。该研究中的数据集具有高达7000个观察,80个预测因子和50级。此列表定义表中的术语。
速度:
快 - 0.01秒
中学 - 1秒
慢 - 100秒
记忆
小 - 1MB.
中等 - 4MB.
大 - 100MB.
笔记
该表提供了一般指南。您的结果取决于您的数据和机器的速度。
此表介绍了每个分类器的预测器的数据类型支持。金宝app
分类器 | 所有预测器数字 | 所有预测因素分类 | 一些分类,一些数字 |
---|---|---|---|
决策树 | 是的 | 是的 | 是的 |
判别分析 | 是的 | 不 | 不 |
SVM | 是的 | 是的 | 是的 |
天真的贝父 | 是的 | 是的 | 是的 |
最近的邻居 | 欧几里德距离仅限 | 只有汉明距离 | 不 |
合奏 | 是的 | 是的,除子空间符合判别分析分类器 | 是的,除子空间合奏 |
[1] Breiman,L。“随机森林。”机器学习45,2001,第5-32页。