监督学习工作流程和算法

什么是监督学习？

监督机器学习的目的是建立一个模型，这是基于存在不确定性存在的证据的预测。作为自适应算法识别数据中的模式，计算机“学习”观察结果。当暴露于更多观察时，计算机可以提高其预测性能。

具体地，监督的学习算法采用已知的输入数据集和对数据（输出）的已知响应，以及火车一种模型，用于生成对新数据响应的合理预测的模型。

例如，假设您想预测某人是否会在一年内进行心脏病发作。您有一套关于先前患者的数据，包括年龄，体重，高度，血压等。您知道先前患者是否在其测量的一年内具有心脏病发作。因此，问题是将所有现有数据组合成一个模型，该模型可以预测一年内新人是否会有心脏病发作。

您可以将整个输入数据集视为异构矩阵。称为矩阵的行观察那例子，或者实例，并且每个含有对受试者的一组测量（示例中的患者）。调用矩阵的列预测因子那属性，或者特征并且每个都是表示在示例中的每个主题（年龄，重量，高度等）上采取的测量的变量。您可以将响应数据视为列向量，其中每行包含输入数据中相应观察的输出（患者是否有心脏病发作）。到合身或者火车监督学习模型，选择合适的算法，然后将输入和响应数据传递给它。

监督学习分为两种广泛类别：分类和回归。

在分类，目标是分配一个类（或标签）从一组有限的课程到观察。也就是说，响应是分类变量。应用程序包括垃圾邮件过滤器，广告推荐系统和图像和语音识别。预测患者是否会在一年内具有心脏病发作是一个分类问题，并且可能的课程是真的和错误的。分类算法通常适用于名义响应值。但是，一些算法可以容纳序数类（见Fitcecoc.）。
在回归，目标是预测观察的连续测量。也就是说，响应变量是实数。应用包括预测股票价格，能源消耗或疾病发病率。

统计和机器学习工具箱™监督学习功能包括流衬里的对象框架。您可以有效地培训各种算法，将模型组合成集合，评估模型性能，交叉验证和预测新数据的响应。

监督学习的步骤

虽然有许多统计和机器学习工具箱算法进行监督学习，但大多数都使用相同的基本工作流程来获取预测模型。（关于集合学习的步骤的详细说明集合学习的框架。）监督学习的步骤是：

准备数据

所有监督的学习方法都以输入数据矩阵开头，通常称为X这里。每一排X代表一个观察。每列X表示一个变量或预测器。代表缺失的条目南价值X。统计和机器学习工具箱监督学习算法可以处理南值，无论是忽略它们还是忽略任何行南价值。

您可以使用各种数据类型进行响应数据y。每个元素y表示对相应行的响应X。失踪观察y数据被忽略。

回归，y必须是一个数字向量，其中元素数量相同，作为行的行数X。

分类，y可以是任何这些数据类型。此表还包含包含缺失条目的方法。

数据类型	缺少条目
数字矢量	`南`
分类载体	`<未定义>`
字符阵列	空间行
字符串数组	`<缺失>`或者`“`
字符向量的单元格阵列	`''`
逻辑矢量	（不能代表）

选择算法

算法的几种特征之间存在权衡，例如：

培训速度
内存使用情况
新数据的预测准确性
透明度或可解释性，意味着您可以了解算法使其预测的原因有多容易

算法的细节出现在分类算法的特征。关于集合算法的更多详细信息选择适用的集合聚合方法。

适合模型

您使用的拟合功能取决于您选择的算法。

算法	拟合功能
分类树木	`fitctree`
回归树木	`fitrtree.`
判别分析（分类）	`fitcdiscr.`
K.- 最邻居（分类）	`Fitcknn.`
天真的贝叶斯（分类）	`Fitcnb.`
金宝app支持矢量机器（SVM）进行分类	`fitcsvm.`
svm回归	`Fitrsvm.`
用于SVM或其他分类器的多键模型	`Fitcecoc.`
分类集合	`fitcensemble.`
回归合奏	`fitrensemble.`
分类或回归树系列（例如，随机森林[1]）	`treebagger`

为了比较这些算法，请参阅分类算法的特征。

选择验证方法

检查所得拟合模型精度的三种主要方法是：

检查合适并更新直至满意

在验证模型后，您可能希望将其更改为更好的准确性，更好的速度，或使用较少的内存。

更改拟合参数以尝试获得更准确的模型。例如，请参阅：
改变拟合参数以尝试获得更小的模型。这有时会提供更准确的模型。例如，请参阅：
尝试不同的算法。对于适用的选择，请参阅：
- 分类算法的特征
- 选择适用的集合聚合方法

对某种类型的模型满意时，您可以使用适当的方式修剪它袖珍的功能（袖珍的对于分类树，袖珍的对于回归树，袖珍的为了判别分析，袖珍的对于天真的贝叶斯，袖珍的对于SVM，袖珍的对于Ecoc模型，袖珍的对于分类集合，和袖珍的对于回归合奏。袖珍的从模型中删除预测，例如决策树的修剪信息以减少内存消耗，从而删除训练数据和其他属性。因为K.NN分类模型需要所有培训数据来预测标签，您无法减小尺寸ClassificationKnn.模型。

使用拟合模型进行预测

为了预测大多数拟合模型的分类或回归响应，使用预测方法：

Ypredict =预测（Obj，xnew）

obj.是拟合型号或拟合的紧凑型型号。
Xnew.是新的输入数据。
ypreed ..是预测的响应，分类或回归。

分类算法的特征

该表显示了各种监督学习算法的典型特征。任何特定案例中的特征都可以从列出的情况不同。使用该表作为初始选择算法的指南。根据速度，内存使用，灵活性和解释性决定您想要的权衡。

小费

首先尝试决策树或判别，因为这些分类器是快速且易于解释的。如果模型不足以预测响应，则尝试具有更高灵活性的其他分类器。

要控制灵活性，请参阅每个分类器类型的详细信息。为避免过度装备，请查看较低灵活性的模型，提供足够的精度。

分类器	多牌支持金宝app	分类预测器支持金宝app	预测速度	内存使用情况	解释性
决策树-`fitctree`	是的	是的	快速地	小的	简单
判别分析-`fitcdiscr.`	是的	不	快速地	线性的小，大型为二次	简单
SVM-`fitcsvm.`	不。使用多个二进制SVM分类器使用`Fitcecoc.`。	是的	线性的媒介。为别人慢慢慢。	线性的媒介。所有其他人：多包子的媒体，大型为二元。	易于线性SVM。所有其他内核类型都很难。
天真的贝父-`Fitcnb.`	是的	是的	媒介简单分布。迟钝的内核分布或高维数据	小型分布。内核分布或高维数据的媒介	简单
最近的邻居-`Fitcknn.`	是的	是的	平方米慢。媒体为别人。	中等的	难的
合奏-`fitcensemble.`和`fitrensemble.`	是的	是的	根据算法的选择快速到介质	根据算法的选择，低至高。	难的

该表中的结果基于对许多数据集的分析。该研究中的数据集具有高达7000个观察，80个预测因子和50级。此列表定义表中的术语。

速度：

快 - 0.01秒
中学 - 1秒
慢 - 100秒

记忆

小 - 1MB.
中等 - 4MB.
大 - 100MB.

笔记

该表提供了一般指南。您的结果取决于您的数据和机器的速度。

分类预测器支持金宝app

此表介绍了每个分类器的预测器的数据类型支持。金宝app

分类器	所有预测器数字	所有预测因素分类	一些分类，一些数字
决策树	是的	是的	是的
判别分析	是的	不	不
SVM	是的	是的	是的
天真的贝父	是的	是的	是的
最近的邻居	欧几里德距离仅限	只有汉明距离	不
合奏	是的	是的，除子空间符合判别分析分类器	是的，除子空间合奏