机器学习监督的目的,是建立一个模型,使预测基于证据的不确定性。自适应算法识别数据中的模式,电脑“学习”的观察。当暴露于更多的观察,计算机可提高其预测性能。
具体地说,一个监督学习算法需要一组已知的输入数据和已知的响应(输出)的数据,和火车一个模型来生成合理的应对新数据的预测。
例如,假设您想要预测一个人是否在一年内会心脏病发作。有一组数据之前的病人,包括年龄、体重、身高、血压等。你知道前面的患者心脏病发作在一年内的测量。问题是结合所有现有的数据模型,可以预测一个人是否会在一年之内心脏病发作。
你可以把整个组输入数据异构的矩阵。矩阵的行被称为观察,例子,或实例的测量,每个包含一组主题(病人的例子)。列的矩阵被称为预测,属性,或特性,每个变量代表测量了每一个主题(年龄、体重、身高等)。你能想到的响应数据作为一个列向量,每行包含相应观察输入数据的输出(是否病人心脏病发作)。来适合或火车一个监督学习模型,选择合适的算法,然后通过输入和响应数据。
监督学习分为两大类:分类和回归。
在分类,我们的目标是(或指定一个类标签)从一个有限集合类的一个观察。反应是分类变量。应用包括垃圾邮件过滤器、广告推荐系统、图像和语音识别。预测患者是否有心脏病发作在一年之内是一个分类问题,和可能的类真正的
和假
。分类算法通常适用于标称响应值。然而,一些算法可以适应序数类(见fitcecoc
)。
在回归,我们的目标是预测的连续测量观察。也就是说,响应变量是实数。应用包括预测股票价格、能源消耗或疾病发病率。
统计和机器学习工具箱™监督学习功能包括一个全方位、对象框架。你可以有效地训练各种算法,结合成一个整体模型,性能评估模型,旨在,预测新数据的反应。
虽然有很多统计和机器学习工具箱为监督学习算法,大多数使用相同的基本工作流获取一个预测模型。(详细说明对集成学习的步骤对集成学习框架)。监督学习的步骤是:
所有的监督学习方法从一个输入数据矩阵,通常被称为X
在这里。每一行的X
代表一个观察。每一列的X
代表一个变量,或预测。代表失踪的条目南
值X
。统计和机器学习工具箱监督学习算法可以处理南
值,通过他们忽略或忽视任何行南
价值。
您可以使用各种数据类型的响应数据Y
。中的每个元素Y
代表的响应相应的行X
。观察与缺失Y
数据将被忽略。
对于回归,Y
必须与相同数量的数值向量元素的行数的X
。
的分类,Y
可以是任何数据类型。这个表还包含的方法包括失踪的条目。
数据类型 | 失踪的条目 |
---|---|
数值向量 | 南 |
分类向量 | <定义> |
字符数组 | 排空间 |
字符串数组 | <失踪> 或”“ |
单元阵列的特征向量 | ” |
逻辑向量 | (不能代表) |
有几个特征之间的权衡算法,如:
速度的训练
内存使用情况
在新数据预测的准确性
透明度和可解释性,意味着你可以很容易地理解一个算法使其预测的原因
算法中出现的细节分类算法的特点。更多细节关于整体算法选择一个适用的合奏聚合方法。
你使用的拟合函数取决于您选择的算法。
算法 | 拟合函数 |
---|---|
分类树 | fitctree |
回归树 | fitrtree |
判别分析(分类) | fitcdiscr |
k最近的邻居(分类) | fitcknn |
朴素贝叶斯(分类) | fitcnb |
金宝app支持向量机(SVM)分类 | fitcsvm |
支持向量机的回归 | fitrsvm |
多类支持向量机或其他分类器模型 | fitcecoc |
分类集合体 | fitcensemble |
回归集合体 | fitrensemble |
分类和回归树集合体(例如,随机森林[1]) | TreeBagger |
这些算法的比较,看到分类算法的特点。
三个主要的方法来检查生成的拟合模型的准确性:
检查resubstitution错误。有关示例,请参见:
检查交叉验证错误。有关示例,请参见:
检查out-of-bag错误的决策树。有关示例,请参见:
验证模型之后,您可能想要改变它的准确性,更好的速度,或者使用更少的内存。
改变拟合参数来得到一个更精确的模型。有关示例,请参见:
改变拟合参数,试图得到一个较小的模型。这有时让一个模型的准确性。有关示例,请参见:
尝试不同的算法。适用的选项,请参阅:
当满意某些类型的模型,你可以使用适当的修剪紧凑的
函数(紧凑的
分类树,紧凑的
回归树,紧凑的
判别分析,紧凑的
朴素贝叶斯、紧凑的
支持向量机,紧凑的
对于ECOC模型,紧凑的
分类乐团,和紧凑的
回归集合体)。紧凑的
将训练数据和其他属性不需要预测,例如,为决策树剪枝信息,从模型中,以减少内存消耗。因为k神经网络分类模型要求的所有训练数据预测标签,你不能减少的大小ClassificationKNN
模型。
预测分类或回归响应对于大多数拟合模型,使用预测
方法:
Ypredicted =预测(obj Xnew)
obj
拟合模型或安装紧凑模式。
Xnew
是一种新的输入数据。
Ypredicted
是预测的反应,分类或回归。
此表显示了各种监督学习算法的典型特征。在任何特定情况下特征可以从列出的不同。使用表格作为指南你最初选择的算法。决定你想要的权衡在速度、内存使用情况,灵活性和可解释性。
提示
决策树或判别第一,因为这些分类器是快速和容易理解。如果模型不够准确预测响应,尝试其他分类器更高的灵活性。
控制的灵活性,看到每个分类器类型的详细信息。为了避免过度拟合,寻找一个模型较低的灵活性,提供足够的精度。
分类器 | 多级支持金宝app | 分类预测的支持金宝app | 预测的速度 | 内存使用情况 | 可解释性 |
---|---|---|---|---|---|
决策树- - - - - -fitctree |
是的 | 是的 | 快 | 小 | 容易 |
判别分析- - - - - -fitcdiscr |
是的 | 没有 | 快 | 小的线性,二次大 | 容易 |
支持向量机- - - - - -fitcsvm |
不。 结合多个二进制SVM分类器使用 fitcecoc 。 |
是的 | 介质为线性的。 为别人慢。 |
介质为线性的。 其他:中型多级,大型二进制。 |
简单的线性支持向量机。 所有其他内核类型。 |
朴素贝叶斯- - - - - -fitcnb |
是的 | 是的 | 媒介对于简单的分布。 缓慢的内核发行版或高维数据 |
小的简单的分布。 媒介内核发行版或高维数据 |
容易 |
最近的邻居- - - - - -fitcknn |
是的 | 是的 | 缓慢的立方。 中为他人。 |
媒介 | 硬 |
乐团- - - - - -fitcensemble 和fitrensemble |
是的 | 是的 | 快到中等取决于选择的算法 | 低到高取决于选择的算法。 | 硬 |
这个表中的结果是基于许多数据集的分析。这项研究的数据集7000观察,80年预测,50类。这个列表定义了术语表中。
速度:
快,0.01秒
中期1秒
慢- 100秒
内存
小- 1 mb
中期4 mb
大- 100 mb
请注意
表提供了一个通用的指南。你的结果取决于你的数据和你的机器的速度。
此表描述了数据类型支持每个分类器的预测因子。金宝app
分类器 | 所有的预测数字 | 所有预测分类 | 一些直言,一些数字 |
---|---|---|---|
决策树 | 是的 | 是的 | 是的 |
判别分析 | 是的 | 没有 | 没有 |
支持向量机 | 是的 | 是的 | 是的 |
朴素贝叶斯 | 是的 | 是的 | 是的 |
最近的邻居 | 欧氏距离只有 | 汉明距离只有 | 没有 |
乐团 | 是的 | 是的,除了子空间总体判别分析分类器 | 是的,除了子空间集合体 |
[1]Breiman, L。“随机森林。”机器学习45岁,2001年,页5-32。