预测

使用分类树预测标签

全部展开页面

语法

标签=预测(Mdl, X)

标签=预测(Mdl X、名称、值)

(标签、分数、节点cnum) =预测(＿＿＿）

描述

标签=预测(Mdl，X）返回表或矩阵中预测器数据的预测类标签向量X，基于训练过的、完整的或紧凑的分类树Mdl．

标签=预测(Mdl，X，名称,值）使用一个或多个指定的附加选项名称,值对参数。例如，你可以指定去修剪Mdl在预测标签之前达到一个特定的水平。

［标签，分数，节点，cnum) =预测(＿＿＿）使用前面语法中的任何输入参数，并额外返回:

分类分数矩阵(分数)表示标签来自特定类的可能性。对于分类树，分数是后验概率。对于每一个X,预测类标签对应于最小值预期的误分类代价在所有类。
用于分类的预测节点数向量(节点)．
用于分类的预测类别数的向量(cnum)．

输入参数

全部展开

`Mdl`- - - - - -训练有素的分类树
`ClassificationTree`模型对象|`CompactClassificationTree`模型对象

训练过的分类树，指定为ClassificationTree或CompactClassificationTree模型对象。也就是说,Mdl是否返回训练过的分类模型fitctree或紧凑的．

`X`- - - - - -预测数据分类
数字矩阵|表格

要分类的预测器数据，指定为数字矩阵或表。

每一行的X对应一个观察值，每一列对应一个变量。

对于数值矩阵:
- 组成列的变量X必须和训练的预测变量有相同的顺序吗Mdl．
- 如果你训练Mdl使用表(例如，资源描述),然后X可以是一个数字矩阵，如果资源描述包含所有数值预测变量。处理数值预测资源描述作为分类训练，识别分类预测使用CategoricalPredictors的名称-值对参数fitctree．如果资源描述包含异构预测变量(例如，数字和分类数据类型)和X是一个数值矩阵，那么预测抛出一个错误。
一个表:
- 预测除了字符向量的单元金宝app格数组外，不支持多列变量或单元格数组。
- 如果你训练Mdl使用表(例如，资源描述)，然后所有预测变量X必须具有与那些训练过的相同的变量名和数据类型Mdl(存储在Mdl。PredictorNames)．但是，的列顺序X不需要对应的列顺序资源描述．资源描述和X可以包含额外的变量(响应变量，观察权重等)，但是预测忽略了它们。
- 如果你训练Mdl使用一个数字矩阵，然后预测器命名Mdl。PredictorNames和相应的预测变量名X肯定是一样的。要在训练期间指定预测器名称，请参见PredictorNames的名称-值对参数fitctree．所有的预测变量X必须是数值向量。X可以包含额外的变量(响应变量，观察权重等)，但是预测忽略了它们。

数据类型:表格|双|单

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

`“子树”`- - - - - -修剪水平
0(默认)|非负整数的向量|`“所有”`

修剪级别，指定为逗号分隔的对，由“子树”一个非负整数的升序或向量“所有”．

如果指定一个向量，则所有元素必须至少为0在大多数马克斯(Mdl.PruneList)．0表示完整的、未修剪的树马克斯(Mdl.PruneList)表示被完全修剪的树(即根节点)。

如果您指定“所有”,然后预测操作所有的子树(即，整个修剪序列)。这个规范等同于使用0:马克斯(Mdl.PruneList)．

预测李子Mdl的每一层子树，然后估计相应的输出参数。的大小子树确定某些输出参数的大小。

调用子树,属性PruneList和PruneAlpha的Mdl必须非空的。换句话说，就是成长Mdl通过设置“删除”,“上”，或修剪Mdl使用修剪．

例子:“子树”,“所有”

数据类型:单|双|字符|字符串

输出参数

全部展开

`标签`-预测类标签
矢量|数组

预测类标签，作为向量或数组返回。每个条目的标签的对应行的期望成本最小的类X．

假设子树是一个数字向量包含T元素(“所有”,请参阅子树),X有N行。

如果响应数据类型为字符和:
- T= 1,然后标签是一个字符矩阵包含N行。每行包含由子树生成的预测标签子树．
- T> 1,那么标签是一个N——- - - - - -T单元阵列。
否则,标签是一个N——- - - - - -T具有与响应相同数据类型的数组。(该软件将字符串数组视为字符向量的单元格数组。)

在后两种情况下，列j的标签包含子树生成的预测标签向量子树(j）．

`分数`——后验概率
数字矩阵

后验概率，以大小的数字矩阵返回N——- - - - - -K,在那里N观察的数量(行)在吗X,K班级数(在?Mdl。ClassNames)．评分(i, j)后验概率是这一行吗我的X的类j．

如果子树有T元素,X有N行,然后分数是一个N——- - - - - -K——- - - - - -T数组,并节点和cnum是N——- - - - - -T矩阵。

`节点`——节点数量
数值向量

预测类的节点号，作为数字向量返回。每个条目对应于中的预测节点Mdl对应的行X．

`cnum`级数字
数值向量

与预测的类数相对应标签，作为数字向量返回。每个条目的cnum的对应行的预测类号X．

例子

全部展开

使用分类树预测标签

打开生活的脚本

检查训练中遗漏的数据集中的几行预测。

载入费雪的虹膜数据集。

负载fisheriris

将数据分成训练集(50%)和验证集(50%)。

1) n =大小(量;rng (1)%的再现性idxTrn = false (n, 1);idxTrn (randsample (n,圆(0.5 * n))) = true;%训练集逻辑索引idxVal = idxTrn == false;%验证设置逻辑索引

使用训练集生长分类树。

Mdl = fitctree(量(idxTrn:),物种(idxTrn));

预测验证数据的标签。计算错误分类的观察结果的数量。

标签=预测(Mdl量(idxVal:));标签(randsample(元素个数(标签),5))显示几个预测的标签

ans =5 x1细胞{' setosa}{‘setosa}{‘setosa}{‘virginica}{“癣”}

numMisclass =总和(~ strcmp(标签,物种(idxVal)))

numMisclass = 3

该软件将三个样本外的观测结果分类错误。

用分类树估计类后验概率

打开生活的脚本

载入费雪的虹膜数据集。

负载fisheriris

将数据分成训练集(50%)和验证集(50%)。

1) n =大小(量;rng (1)%的再现性idxTrn = false (n, 1);idxTrn (randsample (n,圆(0.5 * n))) = true;%训练集逻辑索引idxVal = idxTrn == false;%验证设置逻辑索引

使用训练集生成分类树，然后查看它。

Mdl = fitctree(量(idxTrn:),物种(idxTrn));视图(Mdl,“模式”，“图”）

图分类树查看器包含一个轴和其他类型的uimenu, uicontrol对象。轴包含18个类型为line, text的对象。

结果树有四个层次。

使用修剪到级别1和3的子树估计测试集的后验概率。

[~,后]=预测(Mdl量(idxVal:)“子树”3 [1]);Mdl。ClassNames

ans =3 x1细胞{'setosa'} {'versicolor'} {'virginica'}

后(randsample(大小(后,1),5),:,:),．．.显示几个后验概率

ans = ans (:: 1) = 1.0000 0 0 0 0 0 0 0 0 1.0000 1.0000 1.0000 0.8571 - 0.1429 ans (:,: 2) = 0.3733 0.3200 0.3067 0.3733 0.3200 0.3067 0.3733 0.3200 0.3067 0.3733 0.3200 0.3067 0.3733 0.3200 0.3067

的元素后为类后验概率:

行对应于验证集中的观察值。
列对应于中列出的类Mdl。ClassNames．
页面对应于子树。

被修剪到级别1的子树比被修剪到级别3(即根节点)的子树更确定其预测。

更多关于

全部展开

预测类标签

预测通过最小化预期误分类成本进行分类:

$\overset{＾}{y} ＝ \underset{y ＝ 1 ，．．. ， K}{参数最小值} \sum_{j ＝ 1}^{K} \overset{＾}{P} （ j | x ） C （ y | j ），$

地点:

$\overset{＾}{y}$ 是预测的分类。
K为类数。
$\overset{＾}{P} （ j | x ）$ 是类的后验概率吗j为观察x．
$C （ y | j ）$ 对观察进行分类的成本是y当它真正的阶级是j．

分数(树)

对于树木,分数叶节点分类的后验概率为该节点分类的后验概率。在一个节点上分类的后验概率是导致该分类的节点的训练序列的数量，除以导致该节点的训练序列的数量。

例如，考虑对预测器进行分类X作为真正的当X<0．15或X>0.95,X是假的。

生成100个随机点并进行分类:

rng (0,“旋风”）%的再现性X =兰德(100 1);Y = (abs(X - .55) > .4);树= fitctree (X, Y);视图(树,“模式”，“图”）

修剪树:

tree1 =修剪(树,“水平”1);视图(tree1,“模式”，“图”）

修剪后的树正确地将小于0.15的观测值分类为真正的．它还正确地将0.15到0.94的观测值划分为假．然而，它错误地将大于。94的观测值归类为假．因此，大于0.15的观测值应该是0.05 / 0.85 =。06年的真正的，约为.8/.85=。94年假．

的前10行计算预测得分X：

[~,分数]=预测(tree1 X (1:10));(分数X (1:10)):

ans =10×30.9059 0.0941 0.8147 0.9059 0.0941 0.9058 0 1.0000 0.1270 0.9059 0.0941 0.9134 0.9059 0.0941 0.6324 0 1.0000 0.0975 0.9059 0.0941 0.2785 0.9059 0.0941 0.5469 0.9059 0.0941 0.9575 0.9059 0.0941 0.9649

的确，每一种价值X(最右边的列)小于0.15的有相关的分数(左边和中间的列)0和1，而其他的价值观X有相关的分数0.91和0.09．(得分的区别0.09而不是预期的06)是由于统计上的波动:有8观察X范围内(1) .95而不是预期的5观察。

真正的误分类代价

真正的误分类代价是将观察结果分类为错误类别的代价。

属性可以设置每个类的真正误分类代价“成本”在创建分类器时使用名称-值参数。成本(i, j)将观察结果分类的成本是多少j当它真正的阶级是我．默认情况下,成本(i, j) = 1如果我~ = j,成本(i, j) = 0如果我=我．换句话说，成本是0正确分类及1不正确的分类。

预期成本

每个观察的预期误分类成本是将观察分类为每个类别的平均成本。

假设你有脑袋你想用训练过的分类器来分类的观察结果K类。你将观察结果放入一个矩阵中X每行只有一个观测值。

期望成本矩阵CE有大小脑袋——- - - - - -K．每一行的CE包含将观察结果分类为每个的预期(平均)成本K类。CE (n，k）是

$\sum_{我＝ 1}^{K} \overset{＾}{P} （我 | X （ n ）） C （ k | 我），$

地点:

K为类数。
$\overset{＾}{P} （我 | X （ n ））$ 是类的后验概率吗我为观察X（n)．
$C （ k | 我）$ 对观察进行分类的真正误分类成本是k当它真正的阶级是我．

联想预测测量

的联想预测测量是一个值，该值指示分割观察的决策规则之间的相似性。在所有可能的决策分裂中，与最优分裂(通过生长树发现)相比，最好的代理决定分手产生最大的关联预测度量。第二好的代理分裂具有第二好的关联预测指标。

假设x_j和x_k预测变量j和k分别为,j≠k．在节点t，最优分割之间关联的预测度量x_j<u和代理分裂x_k<v是

$λ_{j k} ＝ \frac{最小值（ P_{l} ， P_{R} ） - （ 1 - P_{l_{j} l_{k}} - P_{R_{j} R_{k}} ）}{最小值（ P_{l} ， P_{R} ）} ．$

P_l节点中观测值的比例是多少t,这样x_j<u．下标l表示节点的左子节点t．
P_R节点中观测值的比例是多少t,这样x_j≥u．下标R表示节点的右子节点t．
$P_{l_{j} l_{k}}$ 是节点上的观察比例吗t,这样x_j<u和x_k<v．
$P_{R_{j} R_{k}}$ 是节点上的观察比例吗t,这样x_j≥u和x_k≥v．
缺失值的观测值x_j或x_k不要参与比例计算。

λ_jk是(-∞，1)中的值。如果λ_jk> 0,然后x_k<v是否值得分割x_j<u．

算法

预测的分支生成预测Mdl直到它到达叶节点或丢失的值。如果预测到达叶节点时，它返回该节点的分类。

如果预测到达一个缺少预测器值的节点时，其行为取决于代理名称-值对的时候fitctree构造Mdl．

代理＝“关闭”(默认)预测返回到达节点的训练样本数量最大的标签。
代理＝“上”- - - - - -预测在节点上使用最佳代理分割。如果所有的代理变量都为正联想预测测量人失踪,预测返回到达节点的训练样本数量最大的标签。关于定义，请参见联想预测测量．

选择功能

金宝app仿真软件块

将分类树的预测模型集成到Simulink中金宝app^®，你可以使用ClassificationTree预测块在统计和机器学习工具箱™库或MATLAB^®函数块预测函数。有关示例,请参见使用ClassificationTree预测块预测类标签和用MATLAB函数块预测类标签．

在决定使用哪种方法时，请考虑以下几点:

如果使用统计学和机器学习工具箱库块，则可以使用定点的工具(定点设计师)将浮点模型转换为定点模型。
金宝app的MATLAB函数块必须启用对可变大小数组的支持预测函数。
如果您使用MATLAB函数块，您可以使用MATLAB函数在同一个MATLAB函数块中进行预测之前或之后的预处理或后处理。

扩展功能

高大的数组
使用具有大于内存容量的行数的数组进行计算。

这个函数完全支持高数组。金宝app使用这个函数，您可以使用在内存中或高数据上训练的模型。

有关更多信息，请参见高大的数组．

C / c++代码生成
使用MATLAB®Coder™生成C和c++代码。

使用注意事项及限制:

您可以为两者生成C/ c++代码预测和更新通过使用编码器配置器。或者，只生成代码预测通过使用saveLearnerForCoder，loadLearnerForCoder,codegen．
- 代码生成的预测和更新创建一个编码器配置器learnerCoderConfigurer然后通过使用generateCode．然后，您可以在生成的代码中更新模型参数，而不必重新生成代码。
- 代码生成的预测通过使用保存一个训练过的模型saveLearnerForCoder．定义一个入口点函数，通过使用loadLearnerForCoder并调用预测函数。然后使用codegen(MATLAB编码器)为入口点函数生成代码。

要为predict生成单精度的C/ c++代码，请指定name-value参数“数据类型”、“单”当你呼叫loadLearnerForCoder函数。
您也可以生成固定的C/ c++代码预测．定点代码生成需要一个额外的步骤，定义预测所需变量的定点数据类型。属性创建定点数据类型结构数据类型的函数生成的generateLearnerDataTypeFcn，并将该结构用作的输入参数loadLearnerForCoder在入口点函数中。生成定点C/ c++代码需要MATLAB编码器™和定点设计师™。

这个表格包含关于的参数的注释预测．表中未包含的参数完全支持。金宝app

论点	笔记和局限性
`Mdl`	有关模型对象的使用说明和限制，请参见代码生成的`CompactClassificationTree`对象。
`X`	对于通用代码生成，`X`必须是单精度或双精度矩阵，或包含数字变量、分类变量或两者的表。在编码器配置器工作流中，`X`必须是单精度或双精度矩阵。对于定点代码生成，`X`一定是一个不动点矩阵。中的行数或观察值`X`可以是一个可变的大小，但是`X`必须是固定的。如果你想指定`X`作为一个表，那么你的模型必须使用一个表来训练，你的预测入口点函数必须: 接受数据为数组。根据数据输入参数创建表，并指定表中的变量名。把桌子递给`预测`．有关此表格工作流的示例，请参见生成代码对表中的数据进行分类．有关在代码生成中使用表的更多信息，请参见表的代码生成(MATLAB编码器)和代码生成的表限制(MATLAB编码器)．
`标签`	如果响应数据类型为`字符`和`codegen`不能确定的值`子树`是标量吗`标签`是字符向量的单元格数组。
`“子树”`	名称-值对参数中的名称必须是编译时常量。例如，要在生成的代码中允许用户定义的修剪级别，包括`{coder.Constant(子树),coder.typeof (0, (1, n), [0,1])}`在`arg游戏`的价值`codegen`(MATLAB编码器),在那里`n`是`马克斯(Mdl.PruneList)`．的`“子树”`在编码器配置程序工作流中不支持名称-值对参数。金宝app 对于定点代码生成，`“子树”`值必须是`coder.Constant(所有的)`或具有整数数据类型。

有关更多信息，请参见代码生成简介．

另请参阅

ClassificationTree|紧凑的|CompactClassificationTree|边缘|fitctree|损失|保证金|修剪

主题

为代码生成指定可变大小参数

介绍了R2011a

预测

语法

描述

输入参数

`Mdl`- - - - - -训练有素的分类树
`ClassificationTree`模型对象|`CompactClassificationTree`模型对象

`X`- - - - - -预测数据分类
数字矩阵|表格

名称-值对的观点

`“子树”`- - - - - -修剪水平
0(默认)|非负整数的向量|`“所有”`

输出参数

`标签`-预测类标签
矢量|数组

`分数`——后验概率
数字矩阵

`节点`——节点数量
数值向量

`cnum`级数字
数值向量

例子

使用分类树预测标签

用分类树估计类后验概率

更多关于

预测类标签

分数(树)

真正的误分类代价

预期成本

联想预测测量

算法

选择功能

金宝app仿真软件块

扩展功能

高大的数组
使用具有大于内存容量的行数的数组进行计算。

C / c++代码生成
使用MATLAB®Coder™生成C和c++代码。

另请参阅

主题

统计和机器学习工具箱文档

金宝app

掌握机器学习:一步一步的指导与MATLAB

预测

语法

描述

输入参数

Mdl- - - - - -训练有素的分类树ClassificationTree模型对象|CompactClassificationTree模型对象

X- - - - - -预测数据分类数字矩阵|表格

名称-值对的观点

“子树”- - - - - -修剪水平0(默认)|非负整数的向量|“所有”

输出参数

标签-预测类标签矢量|数组

分数——后验概率数字矩阵

节点——节点数量数值向量

cnum级数字数值向量

例子

使用分类树预测标签

用分类树估计类后验概率

更多关于

预测类标签

分数(树)

真正的误分类代价

预期成本

联想预测测量

算法

选择功能

金宝app仿真软件块

扩展功能

高大的数组使用具有大于内存容量的行数的数组进行计算。

C / c++代码生成使用MATLAB®Coder™生成C和c++代码。

另请参阅

主题

统计和机器学习工具箱文档

金宝app

掌握机器学习:一步一步的指导与MATLAB

`Mdl`- - - - - -训练有素的分类树
`ClassificationTree`模型对象|`CompactClassificationTree`模型对象

`X`- - - - - -预测数据分类
数字矩阵|表格

`“子树”`- - - - - -修剪水平
0(默认)|非负整数的向量|`“所有”`

`标签`-预测类标签
矢量|数组

`分数`——后验概率
数字矩阵

`节点`——节点数量
数值向量

`cnum`级数字
数值向量

高大的数组
使用具有大于内存容量的行数的数组进行计算。

C / c++代码生成
使用MATLAB®Coder™生成C和c++代码。