主要内容

监督学习工作流程和算法

什么是监督学习?

监督机器学习的目的是建立一个模型,这是基于存在不确定性存在的证据的预测。作为自适应算法识别数据中的模式,计算机“学习”观察结果。当暴露于更多观察时,计算机可以提高其预测性能。

具体地,监督的学习算法采用已知的输入数据集和对数据(输出)的已知响应,以及火车一种模型,用于生成对新数据响应的合理预测的模型。

例如,假设你想预测某人是否会在一年内心脏病发作。你有一组以前病人的数据,包括年龄、体重、身高、血压等。你知道之前的病人在一年内是否有心脏病发作。因此,问题在于将所有现有数据整合到一个模型中,从而预测一个新人在一年内是否会心脏病发作。

您可以将整个输入数据集看作一个异构矩阵。矩阵的行称为观察例子, 或者实例,每个都包含一个主题(示例中的患者)的一组度量值。矩阵的列称为预测因子属性, 或者特征,每个变量都代表了对每个受试者的测量值(示例中的年龄、体重、身高等)。您可以将响应数据看作一个列向量,其中每一行包含输入数据中相应观察结果的输出(患者是否有心脏病发作)。来合身火车一个有监督的学习模型,选择一个合适的算法,然后将输入和响应数据传递给它。

监督学习分为两大类:分类和回归。

  • 分类,目标是分配一个类(或标签)从一组有限的课程到观察。也就是说,响应是分类变量。应用程序包括垃圾邮件过滤器,广告推荐系统和图像和语音识别。预测患者是否会在一年内具有心脏病发作是一个分类问题,并且可能的课程是真正的.分类算法通常适用于名义响应值。但是,一些算法可以容纳序数类(见fitcecoc).

  • 回归,目标是预测一个观察的连续测量。也就是说,响应变量是实数。应用包括预测股票价格、能源消耗或疾病发生率。

统计和机器学习工具箱™监督学习功能包括流衬里的对象框架。您可以有效地培训各种算法,将模型组合成集合,评估模型性能,交叉验证和预测新数据的响应。

监督学习的步骤

虽然有许多统计和机器学习工具箱算法进行监督学习,但大多数都使用相同的基本工作流程来获取预测模型。(关于集合学习的步骤的详细说明集成学习框架.)监督学习的步骤如下:

准备数据

所有监督的学习方法都以输入数据矩阵开头,通常称为X在这里。每一行的X代表一个观察。每一列的X表示一个变量或预测器。用价值X.统计和机器学习工具箱的监督学习算法可以处理值,可以通过忽略它们或忽略任何带有价值。

您可以为响应数据使用各种数据类型y.中的每个元素y表示对相应行的响应X.失踪观察y数据将被忽略。

  • 对于回归,y必须是一个数字向量,其元素数与的行数相同X

  • 的分类,y可以是任何这些数据类型。此表还包含包含缺失条目的方法。

    数据类型 失踪的条目
    数值向量
    分类载体 <定义>
    字符数组 排空间
    字符串数组 < >失踪
    字符向量的单元格数组
    逻辑向量 (不能代表)

选择一种算法

算法的几种特征之间存在权衡,例如:

  • 速度的训练

  • 内存使用情况

  • 对新数据的预测准确性

  • 透明度或可解释性,意味着您可以了解算法使其预测的原因有多容易

算法的细节出现在分类算法的特点.关于集合算法的更多详细信息选择适用的集成聚合方法

适合一个模型

你使用的拟合函数取决于你选择的算法。

算法 拟合函数
分类树 fitctree
回归树 fitrtree
判别分析(分类) fitcdiscr
K.最近的邻居(分类) fitcknn
朴素贝叶斯(分类) fitcnb
金宝app支持向量机(SVM)分类 fitcsvm
支持向量机的回归 fitrsvm
支持向量机或其他分类器的多类模型 fitcecoc
分类集合体 fitcensemble.
回归集合体 fitrensemble
分类或回归树系列(例如,随机森林[1] TreeBagger

有关这些算法的比较,请参见分类算法的特点

选择验证方法

检验所得到的拟合模型准确性的三种主要方法是:

检查并更新,直到满意为止

在验证模型之后,您可能想要更改它以获得更好的准确性、更快的速度,或者使用更少的内存。

当您对某一型号满意时,可以使用适当的工具对其进行修整紧凑的函数(紧凑的分类树,紧凑的对于回归树,紧凑的判别分析,紧凑的朴素贝叶斯、紧凑的支持向量机,紧凑的对于Ecoc模型,紧凑的对于分类集合,和紧凑的对于回归合奏。紧凑的从模型中删除预测,例如决策树的修剪信息以减少内存消耗,从而删除训练数据和其他属性。因为K.神经网络分类模型需要所有的训练数据来预测标签,不能减小标签的大小ClassificationKNN模型。

使用拟合模型进行预测

为预测大多数拟合模型的分类或回归反应,使用预测方法:

Ypredict =预测(Obj,xnew)
  • obj是拟合模型或拟合紧凑模型。

  • Xnew.是新的输入数据。

  • Ypredicted是预测的响应,分类或回归。

分类算法的特点

该表显示了各种监督学习算法的典型特征。任何特定情况下的特征都可能与所列的特征不同。使用这个表格作为你最初选择算法的指南。决定在速度、内存使用、灵活性和可解释性方面的权衡。

提示

首先尝试使用决策树或判别器,因为这些分类器快速且易于解释。如果模型在预测响应方面不够准确,可以尝试其他具有更高灵活性的分类器。

要控制灵活性,请参阅每个分类器类型的详细信息。为了避免过度拟合,要寻找灵活性较低但提供足够精度的模型。

分类器 多级支持金宝app 分类预测器支持金宝app 预测的速度 内存使用情况 可解释性
决策树-fitctree 是的 是的 快速地 小的 简单
判别分析-fitcdiscr 是的 没有 快速地 线性的小,大型为二次 简单
SVM-fitcsvm 不。
使用多个二进制SVM分类器使用fitcecoc
是的 线性的媒介。
为别人慢。
线性的媒介。
所有其他:medium for multiclass, large for binary。
易于线性SVM。
所有其他内核类型都很难。
朴素贝叶斯-fitcnb 是的 是的 媒介简单分布。
对于内核分布或高维数据,速度较慢
对于简单的分布来说很小。
用于内核分布或高维数据的介质
简单
最近的邻居-fitcknn 是的 是的 平方米慢。
中为他人。
媒介
乐团-fitcensemble.fitrensemble 是的 是的 快到媒介取决于算法的选择 根据算法的选择,低至高。

该表中的结果基于对许多数据集的分析。该研究中的数据集具有高达7000个观察,80个预测因子和50级。此列表定义表中的术语。

速度:

  • 快 - 0.01秒

  • 中学 - 1秒

  • 慢 - 100秒

记忆

  • 小- 1 mb

  • 中等 - 4MB.

  • 大- 100 mb

笔记

该表提供了一般指南。您的结果取决于您的数据和机器的速度。

分类预测器支持金宝app

该表描述了对每个分类器的预测器的数据类型支持。金宝app

分类器 所有预测器数字 所有预测分类 有些是绝对的,有些是数字的
决策树 是的 是的 是的
判别分析 是的 没有 没有
SVM 是的 是的 是的
朴素贝叶斯 是的 是的 是的
最近的邻居 欧氏距离只有 只有汉明距离 没有
乐团 是的 是的,除了判别分析分类器的子空间集合 是的,除了子空间集合

参考文献

[1] Breiman,L。“随机森林。”机器学习45,2001,第5-32页。