resubLoss

补偿分类错误

展开所有页面

语法

L = resubLoss(树) l = Resubloss（树，名称，值） L = resubLoss(树的子树,subtreevector) (L, se) = resubLoss(树的子树,subtreevector) [L, se, NLeaf] = resubLoss(树的子树,subtreevector) [l，se，nleaf，bestlevel] = Resubloss（树，'子树'，子到rerevector） [l，...] = resubloss（树，“子树”，subtreevector，名称,值）

描述

l= RERUBLOS（树）返回重新替换损失，即为该数据计算的损失fitctree用来创造树．

l= RERUBLOS（树，名称,值）返回由一个或多个指定的附加选项的损失名称,值对论点。您可以以任何顺序指定多个名称值对参数Name1, Value1,…,的家．

l= RERUBLOS（树，“子树”，子到rereevector）返回修剪序列中树的分类错误向量subtreevector．

［l，SE.] = RERUBLOS（树，“子树”，子到rereevector）返回分类误差的标准误差向量。

［l，SE.，NLeaf] = RERUBLOS（树，“子树”，子到rereevector）返回修剪序列树中叶节点数量的向量。

［l，SE.，NLeaf，Bestlevel.] = RERUBLOS（树，“子树”，子到rereevector）属性中定义的最佳修剪级别TreeSize名称值对。默认情况下,Bestlevel.是在最小损失的一个标准偏差内丢失的修剪水平。

[l，...] = resubloss（树，“子树”，子到rereevector，名称,值）返回由一个或多个指定的附加选项的损失统计信息名称,值对论点。您可以以任何顺序指定多个名称值对参数Name1, Value1,…,的家．

输入参数

全部展开

`树`	构造的分类树`fitctree`．

名称值对参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家．

`'lockfun'`- - - - - -损失函数
`“mincost”`(默认)|`“binodeviance”`|`“classiferror”`|`“指数”`|`'合页'`|`分对数的`|`“二次”`|函数处理

损失函数，指定为逗号分隔对组成'lockfun'以及一个内置的丢失函数名或函数句柄。

下表列出了可用的损耗函数。使用其对应的字符向量或字符串标量指定一个。

价值	描述
`“binodeviance”`	二项式偏差
`“classiferror”`	小数点被错误分类
`“指数”`	指数损失
`'合页'`	铰链的损失
`分对数的`	物流损失
`“mincost”`	最小的预期误分类成本(用于后验概率的分类分数)
`“二次”`	二次损失

“mincost”适用于后验概率的分类评分。默认情况下，分类树将后续概率作为分类分数（参见预测）.

使用函数句柄表示法指定自己的函数。
假设n是观测的次数X和K为不同类别的数目(numel（tree.classnames））.您的函数必须有这个签名
```
lossvalue =损失义务(C、S、W、成本)
```
地点:
- 输出参数失值是一个标量。
- 选择函数名(损失义务）.
- C是一个n——- - - - - -K具有行的逻辑矩阵，指示相应观察所属的哪个类。中的列顺序对应于类的顺序树.Classnames.．
  构造C通过设置c（p，q）= 1如果观察p是在课堂上问每行。设置行的所有其他元素p来0．
- 年代是一个n——- - - - - -K分类分数的数值矩阵。中的列顺序对应于类的顺序树.Classnames.．年代是一个矩阵的分类分数，类似于输出预测．
- W是一个n- 1个数字矢量重量的数字矢量。如果你通过了W，软件将它们的总和标准化1．
- 成本是一个K——- - - - - -K误分类代价的数值矩阵。例如,成本=（k） - 眼睛（k）指定0为正确的分类，和1误分类。
使用以下命令指定函数“LossFun”@损失义务．

有关损失函数的详细信息，请参见分类损失．

数据类型:字符|字符串|function_handle

名称,值与修剪子树相关联的参数：

`“子树”`- - - - - -修剪水平
0(默认)|非负整数矢量|`“所有”`

修剪级别，指定为逗号分隔的对，由“子树”一个非负整数的升序或向量“所有”．

如果指定向量，则所有元素必须至少0最多马克斯(tree.PruneList)．0表示完整的、未修剪的树马克斯(tree.PruneList)表示被完全修剪的树(即根节点)。

如果您指定“所有”,然后resubLoss操作所有的子树(即，整个修剪序列)。这个规范等同于使用0：max（tree.prunelist）．

resubLoss李子树的每一层子树，然后估计相应的输出参数。的大小子树确定某些输出参数的大小。

调用子树，属性PruneList和Prunealpha.的树必须是不懈的。换句话说，成长树通过设置“删除”,“上”，或修剪树使用修剪．

例子:“子树”,“所有”

数据类型:单|双|字符|字符串

`'树化'`- - - - - -树的大小
`“本身”`(默认)|`“最小值”`

树大小，指定为逗号分隔对，由'树化'以及下列值之一:

“本身”- - - - - -损失返回最高的修剪水平，在最小的一个标准偏差范围内损失（l+SE.,在那里l和SE.涉及最小的价值子树）.
“最小值”- - - - - -损失返回子树以最小的损耗，通常是最小的元素子树．

输出参数

`l`	分类损失，矢量长度`子树`．错误的含义取决于其中的值`权重`和`LossFun`．
`SE.`	标准误差的损失，矢量的长度`子树`．
`NLeaf`	被修剪的子树的叶子(终端节点)的数量，向量的长度`子树`．
`Bestlevel.`	标量，其值依赖于标量`TreeSize`： `TreeSize`＝`“本身”`- - - - - -`损失`返回最高的修剪水平，在最小的一个标准偏差范围内损失（`l`+`SE.`,在那里`l`和`SE.`涉及最小的价值`子树`）. `TreeSize`＝`“最小值”`- - - - - -`损失`返回`子树`以最小的损耗，通常是最小的元素`子树`．

例子

全部展开

计算样本内分类误差

打开直播脚本

的重新替换分类错误电离层数据。

负载电离层树= fitctree (X, Y);L = resubLoss(树)

L = 0.0114.

检查每个子树的分类错误

打开直播脚本

未修剪的决策树往往会过度拟合。平衡模型复杂性和样本外性能的一种方法是对树进行修剪(或限制其生长)，以使样本内和样本外性能都令人满意。

装载Fisher的Iris数据集。将数据分区为培训（50％）和验证（50％）集。

负载渔民n =尺寸（meas，1）;RNG（1）%的再现性idxtrn = false（n，1）;IDXTRN（RANDSAMPLE（n，round（0.5 * n）））= true;％培训设定逻辑指数idxval = idxtrn == false;%验证设置逻辑索引

使用培训集生长分类树。

Mdl = fitctree(量(idxTrn:),物种(idxTrn));

查看分类树。

视图(Mdl,“模式”，“图”）;

图分类树查看器包含一个轴和其他类型的uimenu, uicontrol对象。轴包含18个类型为line, text的对象。

分类树有四个修剪水平。级别0是完整的未提出的树（显示）。等级3只是根节点（即，没有分割）。

检查除最高层次外的每个子树(或修剪层次)的训练样本分类错误。

m = max(Mdl.PruneList) - 1;trnLoss = resubLoss (Mdl,“子树”，0：m）

trnLoss =3×10.0267 0.0533 0.3067

完整的，未修剪的树大约2.7%的训练观测错误分类。
修剪到第一级的树误分类了5.3%的训练观察结果。
被修剪到2级(即树桩)的树大约有30.6%的训练观测错误分类。

检查排除最高级别的每个级别的验证样本分类错误。

valLoss =损失(Mdl量(idxVal:),物种(idxVal),“子树”，0：m）

valLoss =3×10.0369 0.0237 0.3067

完整的、未修剪的树误分类了大约3.7%的验证观察结果。
树浸到1级错误分类约2.4％的验证观察。
被修剪到2级(即树桩)的树误分类了约30.7%的验证观测结果。

为了平衡模型复杂性和样本外性能，可以考虑剪枝MDL.1级。

prunemdl = prune（mdl，“水平”1);视图(pruneMdl,“模式”，“图”）

图分类树查看器包含一个轴和其他类型的uimenu, uicontrol对象。轴包含12个类型为line, text的对象。

更多关于

全部展开

分类损失

分类损失功能测量分类模型的预测不准确性。当您在许多模型之间比较相同类型的损耗时，较低的损耗表示更好的预测模型。

考虑以下场景。

l为加权平均分类损失。
n为样本量。
对于二进制分类：
- y_j是观察到的类标签。软件将其代码为-1或1，表示负类或正类（或第一个或第二类一会分别属性)。
- f（X_j)为观察(行)的阳性分类评分j预测数据的X．
- 米_j＝y_jf（X_j)为分类观察的分类评分j对应的类y_j．积极的价值观米_j表明正确的分类，并没有为平均损失贡献。负值米_j指出错误的分类，并对平均损失有很大的贡献。
对于支持多类分类的算法(即，金宝appK≥3）：
- y_j^＊是一个矢量K- 1个零，1在对应于真实的，观察类的位置y_j．例如，如果第二个观察的真正类是第三类和K= 4,然后y₂^＊= [0 0 1 0] '．类的顺序对应于一会输入模型的属性。
- f（X_j)为长度K课程的传染媒介观察的j预测数据的X．分数的顺序与表中班级的顺序相对应一会输入模型的属性。
- 米_j＝y_j^＊”f（X_j）.因此,米_j是模型对真实的、观察到的类所预测的标量分类分数。
观测权重j是w_j．该软件将观测权值归一化，使其和为相应的先验类别概率。软件还将先验概率归一化，使其和为1。因此,

${σ.}_{j ＝ 1}^{n} w_{j} ＝ 1。$

给定此场景，下表描述了支持的损失函数，可以使用金宝app'lockfun'名称-值对的论点。

损失函数	的价值`LossFun`	方程
二项式偏差	`“binodeviance”`	$l ＝ {σ.}_{j ＝ 1}^{n} w_{j} 日志｛ 1 + exp. ［ - 2 米_{j} ］｝．$
小数点被错误分类	`“classiferror”`	$l ＝ {σ.}_{j ＝ 1}^{n} w_{j} 我｛ {\overset{＾}{y}}_{j} \neq y_{j} ｝．$ ${\overset{＾}{y}}_{j}$ 为得分最大的类对应的类标签。我｛·}是指示函数。
交叉熵损失	`'forrorentropy'`	`'forrorentropy'`仅适用于神经网络模型。加权交叉熵损失是 $l ＝ - {σ.}_{j ＝ 1}^{n} \frac{{\tilde{w}}_{j} 日志（米_{j} ）}{K n} ，$ 的权重 ${\tilde{w}}_{j}$ 都归一化为n而不是1。
指数损失	`“指数”`	$l ＝ {σ.}_{j ＝ 1}^{n} w_{j} exp. （ - 米_{j} ）．$
铰链的损失	`'合页'`	$l ＝ {σ.}_{j ＝ 1}^{n} w_{j} 最大限度｛ 0 ， 1 - 米_{j} ｝．$
分对数损失	`分对数的`	$l ＝ {σ.}_{j ＝ 1}^{n} w_{j} 日志（ 1 + exp. （ - 米_{j} ））．$
最小预期错误分类费用	`“mincost”`	`“mincost”`只有当分类分数是后验概率时才合适。该软件计算加权最小期望分类成本使用这一程序的观察j= 1,…,n．估计分类观察的预期错误分类成本X_j进入课堂k： $γ_{j k} ＝ {（ f {（ X_{j} ）}^{”} C ）}_{k} ．$ f（X_j）是对观察的二元和多字母分类的类后验概率的柱矢量X_j．C成本矩阵存储在`成本`模型的财产。对于观察j，预测与最小预期误分类成本相对应的类别标签: ${\overset{＾}{y}}_{j} ＝ \underset{k ＝ 1 ， .．. ， K}{argmin} γ_{j k} ．$ 使用C，确认已发生的成本(c_j)做了预测。最小预期错误分类成本损失的加权平均值是 $l ＝ {σ.}_{j ＝ 1}^{n} w_{j} c_{j} ．$ 如果使用默认代价矩阵(其元素值为0表示正确分类，1表示不正确分类)，则`“mincost”`失则等于失`“classiferror”`的损失。
二次损失	`“二次”`	$l ＝ {σ.}_{j ＝ 1}^{n} w_{j} {（ 1 - 米_{j} ）}^{2} ．$

该图比较了损耗功能（除了'forrorentropy'和“mincost”超过分数米一个观察。某些功能被归一化以通过点（0,1）。

真正的误分类代价

真正的错误分类成本是将观察分类为不正确的类别的成本。

属性可以设置每个类的真正误分类代价“成本”创建分类器时的名称值参数。成本（i，j）将观察结果分类的成本是多少j当它的真实课程是我．默认情况下,成本(i, j) = 1如果我~ = j，和成本(i, j) = 0如果我= J.．换句话说，成本是0正确分类和1对于不正确的分类。

预期错误分类成本

每个观察的预期误分类成本是将观察分类为每个类别的平均成本。

假设你有谈判你想用训练过的分类器来分类的观察结果K类。你将观察结果放入一个矩阵中X每行只有一个观测值。

期望成本矩阵CE有规模谈判——- - - - - -K．每一行的CE包含将观察分类为每个的预期（平均）成本K类。CE (n，k）是

${σ.}_{我＝ 1}^{K} \overset{＾}{P} （我 | X （ n ）） C （ k | 我），$

地点:

K为类数。
$\overset{＾}{P} （我 | X （ n ））$ 是类的后验概率吗我为观察X（n）.
$C （ k | 我）$ 对观察进行分类的真正误分类成本是k当它的真实课程是我．

另请参阅

fitctree|损失|resubEdge|resubMargin|resubPredict

resubLoss

语法

描述

输入参数

名称值对参数

`'lockfun'`- - - - - -损失函数
`“mincost”`(默认)|`“binodeviance”`|`“classiferror”`|`“指数”`|`'合页'`|`分对数的`|`“二次”`|函数处理

`“子树”`- - - - - -修剪水平
0(默认)|非负整数矢量|`“所有”`

`'树化'`- - - - - -树的大小
`“本身”`(默认)|`“最小值”`

输出参数

例子

计算样本内分类误差

检查每个子树的分类错误

更多关于

分类损失

真正的误分类代价

预期错误分类成本

另请参阅

统计和机器学习工具箱文档

金宝app

掌握机器学习:一步一步的指导与MATLAB

resubLoss

语法

描述

输入参数

名称值对参数

'lockfun'- - - - - -损失函数“mincost”(默认)|“binodeviance”|“classiferror”|“指数”|'合页'|分对数的|“二次”|函数处理

“子树”- - - - - -修剪水平0(默认)|非负整数矢量|“所有”

'树化'- - - - - -树的大小“本身”(默认)|“最小值”

输出参数

例子

计算样本内分类误差

检查每个子树的分类错误

更多关于

分类损失

真正的误分类代价

预期错误分类成本

另请参阅

统计和机器学习工具箱文档

金宝app

掌握机器学习:一步一步的指导与MATLAB

`'lockfun'`- - - - - -损失函数
`“mincost”`(默认)|`“binodeviance”`|`“classiferror”`|`“指数”`|`'合页'`|`分对数的`|`“二次”`|函数处理

`“子树”`- - - - - -修剪水平
0(默认)|非负整数矢量|`“所有”`

`'树化'`- - - - - -树的大小
`“本身”`(默认)|`“最小值”`