主要内容

监督学习工作流程和算法

监督学习是什么?

机器学习监督的目的,是建立一个模型,使预测基于证据的不确定性。自适应算法识别数据中的模式,电脑“学习”的观察。当暴露于更多的观察,计算机可提高其预测性能。

具体地说,一个监督学习算法需要一组已知的输入数据和已知的响应(输出)的数据,和火车一个模型来生成合理的应对新数据的预测。

例如,假设您想要预测一个人是否在一年内会心脏病发作。有一组数据之前的病人,包括年龄、体重、身高、血压等。你知道前面的患者心脏病发作在一年内的测量。问题是结合所有现有的数据模型,可以预测一个人是否会在一年之内心脏病发作。

你可以把整个组输入数据异构的矩阵。矩阵的行被称为观察,例子,或实例的测量,每个包含一组主题(病人的例子)。列的矩阵被称为预测,属性,或特性,每个变量代表测量了每一个主题(年龄、体重、身高等)。你能想到的响应数据作为一个列向量,每行包含相应观察输入数据的输出(是否病人心脏病发作)。来适合火车一个监督学习模型,选择合适的算法,然后通过输入和响应数据。

监督学习分为两大类:分类和回归。

  • 分类,我们的目标是(或指定一个类标签)从一个有限集合类的一个观察。反应是分类变量。应用包括垃圾邮件过滤器、广告推荐系统、图像和语音识别。预测患者是否有心脏病发作在一年之内是一个分类问题,和可能的类真正的。分类算法通常适用于标称响应值。然而,一些算法可以适应序数类(见fitcecoc)。

  • 回归,我们的目标是预测的连续测量观察。也就是说,响应变量是实数。应用包括预测股票价格、能源消耗或疾病发病率。

统计和机器学习工具箱™监督学习功能包括一个全方位、对象框架。你可以有效地训练各种算法,结合成一个整体模型,性能评估模型,旨在,预测新数据的反应。

在监督学习步骤

虽然有很多统计和机器学习工具箱为监督学习算法,大多数使用相同的基本工作流获取一个预测模型。(详细说明对集成学习的步骤对集成学习框架)。监督学习的步骤是:

准备数据

所有的监督学习方法从一个输入数据矩阵,通常被称为X在这里。每一行的X代表一个观察。每一列的X代表一个变量,或预测。代表失踪的条目X。统计和机器学习工具箱监督学习算法可以处理值,通过他们忽略或忽视任何行价值。

您可以使用各种数据类型的响应数据Y。中的每个元素Y代表的响应相应的行X。观察与缺失Y数据将被忽略。

  • 对于回归,Y必须与相同数量的数值向量元素的行数的X

  • 的分类,Y可以是任何数据类型。这个表还包含的方法包括失踪的条目。

    数据类型 失踪的条目
    数值向量
    分类向量 <定义>
    字符数组 排空间
    字符串数组 <失踪>”“
    单元阵列的特征向量
    逻辑向量 (不能代表)

选择一种算法

有几个特征之间的权衡算法,如:

  • 速度的训练

  • 内存使用情况

  • 在新数据预测的准确性

  • 透明度和可解释性,意味着你可以很容易地理解一个算法使其预测的原因

算法中出现的细节分类算法的特点。更多细节关于整体算法选择一个适用的合奏聚合方法

适合一个模型

你使用的拟合函数取决于您选择的算法。

算法 拟合函数
分类树 fitctree
回归树 fitrtree
判别分析(分类) fitcdiscr
k最近的邻居(分类) fitcknn
朴素贝叶斯(分类) fitcnb
金宝app支持向量机(SVM)分类 fitcsvm
支持向量机的回归 fitrsvm
多类支持向量机或其他分类器模型 fitcecoc
分类集合体 fitcensemble
回归集合体 fitrensemble
分类和回归树集合体(例如,随机森林[1]) TreeBagger

这些算法的比较,看到分类算法的特点

选择一个验证方法

三个主要的方法来检查生成的拟合模型的准确性:

检查和更新,直到满意

验证模型之后,您可能想要改变它的准确性,更好的速度,或者使用更少的内存。

当满意某些类型的模型,你可以使用适当的修剪紧凑的函数(紧凑的分类树,紧凑的回归树,紧凑的判别分析,紧凑的朴素贝叶斯、紧凑的支持向量机,紧凑的对于ECOC模型,紧凑的分类乐团,和紧凑的回归集合体)。紧凑的将训练数据和其他属性不需要预测,例如,为决策树剪枝信息,从模型中,以减少内存消耗。因为k神经网络分类模型要求的所有训练数据预测标签,你不能减少的大小ClassificationKNN模型。

用拟合模型的预测

预测分类或回归响应对于大多数拟合模型,使用预测方法:

Ypredicted =预测(obj Xnew)
  • obj拟合模型或安装紧凑模式。

  • Xnew是一种新的输入数据。

  • Ypredicted是预测的反应,分类或回归。

分类算法的特点

此表显示了各种监督学习算法的典型特征。在任何特定情况下特征可以从列出的不同。使用表格作为指南你最初选择的算法。决定你想要的权衡在速度、内存使用情况,灵活性和可解释性。

提示

决策树或判别第一,因为这些分类器是快速和容易理解。如果模型不够准确预测响应,尝试其他分类器更高的灵活性。

控制的灵活性,看到每个分类器类型的详细信息。为了避免过度拟合,寻找一个模型较低的灵活性,提供足够的精度。

分类器 多级支持金宝app 分类预测的支持金宝app 预测的速度 内存使用情况 可解释性
决策树- - - - - -fitctree 是的 是的 容易
判别分析- - - - - -fitcdiscr 是的 没有 小的线性,二次大 容易
支持向量机- - - - - -fitcsvm 不。
结合多个二进制SVM分类器使用fitcecoc
是的 介质为线性的。
为别人慢。
介质为线性的。
其他:中型多级,大型二进制。
简单的线性支持向量机。
所有其他内核类型。
朴素贝叶斯- - - - - -fitcnb 是的 是的 媒介对于简单的分布。
缓慢的内核发行版或高维数据
小的简单的分布。
媒介内核发行版或高维数据
容易
最近的邻居- - - - - -fitcknn 是的 是的 缓慢的立方。
中为他人。
媒介
乐团- - - - - -fitcensemblefitrensemble 是的 是的 快到中等取决于选择的算法 低到高取决于选择的算法。

这个表中的结果是基于许多数据集的分析。这项研究的数据集7000观察,80年预测,50类。这个列表定义了术语表中。

速度:

  • 快,0.01秒

  • 中期1秒

  • 慢- 100秒

内存

  • 小- 1 mb

  • 中期4 mb

  • 大- 100 mb

请注意

表提供了一个通用的指南。你的结果取决于你的数据和你的机器的速度。

分类预测的支持金宝app

此表描述了数据类型支持每个分类器的预测因子。金宝app

分类器 所有的预测数字 所有预测分类 一些直言,一些数字
决策树 是的 是的 是的
判别分析 是的 没有 没有
支持向量机 是的 是的 是的
朴素贝叶斯 是的 是的 是的
最近的邻居 欧氏距离只有 汉明距离只有 没有
乐团 是的 是的,除了子空间总体判别分析分类器 是的,除了子空间集合体

引用

[1]Breiman, L。“随机森林。”机器学习45岁,2001年,页5-32。