ClassificationTree类

超类:CompactClassificationTree

用于多类分类的二叉决策树

全部展开页面

描述

一个ClassificationTree对象表示具有二叉分类功能的决策树。类的对象可以使用预测方法。该对象包含用于训练的数据，因此它也可以计算重新替换预测。

建设

创建一个ClassificationTree对象的使用fitctree．

属性

`BinEdges`	的单元格数组指定为数值预测器的Bin边p数值向量,p是预测器的数量。每个向量包括一个数字预测器的箱边。用于分类预测器的单元格数组中的元素为空，因为软件没有将分类预测器存储在存储单元中。只有当您指定`“NumBins”`当使用树学习器训练模型时，将名称-值参数作为正整数标量。的`BinEdges`属性为空`“NumBins”`值为空(默认)。您可以复制被分类的预测器数据`Xbinned`通过使用`BinEdges`训练模型的性质`mdl`． X = mdl.X;%预测数据Xbinned = 0 (size(X));边缘= mdl.BinEdges;找到被分类的预测器的指数。idxNumeric =找到(~ cellfun (@isempty边缘));if iscolumn(idxNumeric) idxNumeric = idxNumeric';end for j = idxNumeric x = x (:，j);%如果x是一个表，则将x转换为数组。If istable(x) x = table2array(x);将x组到bin中`离散化`函数。xbinned =离散化(x,[无穷;边缘{};正]);Xbinned (:, j) = Xbinned;结束 `Xbinned`包含用于数字预测器的容器索引，范围从1到容器数量。`Xbinned`对于分类预测器，值为0。如果`X`包含`南`S，然后对应的`Xbinned`值是`南`年代。
`CategoricalPredictors`	分类预测指标，指定为一个正整数向量。`CategoricalPredictors`包含指示对应的预测器是分类的索引值。索引值在1到之间`p`,在那里`p`为用于训练模型的预测器数量。如果没有任何预测器是绝对的，则此属性为空(`［］`）.
`CategoricalSplit`	一个n-by-2 cell array`n`分类分割的数量在吗`树`．在每一行`CategoricalSplit`为分类分割提供左值和右值。对每个分支节点进行分类分割`j`基于一个绝对预测变量`z`，则选择左子结点`z`是在`CategoricalSplit (j, 1)`选择正确的子结点，如果`z`是在`CategoricalSplit (j, 2)`．拆分的顺序与树中的节点相同。这些分割的节点可以通过运行找到`cuttype`并选择`“分类”`从上到下的切割。
`孩子们`	一个n-by-2数组，其中包含每个节点的子节点编号`树`,在那里n为节点数。叶节点有子节点`0`．
`ClassCount`	一个n——- - - - - -k中的节点的类计数数组`树`,在那里n是节点数和k为类数。对于任意节点数`我`，班级的重要性`ClassCount(我,:)`每个类的观察计数(来自拟合树所用的数据)是否满足节点的条件`我`．
`一会`	中的元素列表`Y`删除重复的。`一会`可以是类别数组、字符向量单元格数组、字符数组、逻辑向量或数字向量。`一会`是否与参数中的数据具有相同的数据类型`Y`．(该软件将字符串数组视为字符向量的单元格数组。)
`ClassProbability`	一个n——- - - - - -k中的节点的类概率数组`树`,在那里n是节点数和k为类数。对于任意节点数`我`，类概率`ClassProbability(我,:)`每个类对一个点的估计概率是否满足节点的条件`我`．
`成本`	方阵,`成本(i, j)`将一个点分类的成本是多少`j`如果它真正的阶级是`我`(行对应真实的类，列对应预测的类)。的行和列的顺序`成本`中类的顺序`一会`．中的行数和列数`成本`是响应中唯一类的数量。此属性是只读的。
`CutCategories`	一个n中分支使用的类别的单元格数组`树`,在那里n为节点数。对于每个分支节点`我`基于一个绝对预测变量`X`，则选择左子结点`X`在哪些类别中`CutCategories{1},我`，如果。则选择正确的子节点`X`是其中列出的`CutCategories{2},我`．这两列的`CutCategories`对于基于连续预测器的分支节点和叶节点为空。 `割点`包含的切点`“连续”`削减,`CutCategories`包含类别的集合。
`割点`	一个n元素向量的值用作切入点`树`,在那里n为节点数。对于每个分支节点`我`基于连续的预测变量`X`，则选择左子结点`X <割点(我)`选择正确的子结点，如果`X > =割点(我)`．`割点`是`南`基于分类预测器的分支节点和叶节点。 `割点`包含的切点`“连续”`削减,`CutCategories`包含类别的集合。
`CutType`	一个n中每个节点的切割类型`树`,在那里n为节点数。为每个节点`我`，`CutType{我}`是: `“连续”`-如果切割是在形式中定义的`X < v`为一个变量`X`和减少点`v`． `“分类”`—如果cut是由变量定义的`X`接受一组类别中的值。 `＇＇`——如果`我`是一个叶节点。 `割点`包含的切点`“连续”`削减,`CutCategories`包含类别的集合。
`CutPredictor`	一个n中的每个节点中用于分支的变量名称的单元格数组`树`,在那里n为节点数。这些变量有时被称为减少变量．叶节点,`CutPredictor`包含一个空字符向量。 `割点`包含的切点`“连续”`削减,`CutCategories`包含类别的集合。
`CutPredictorIndex`	一个n中的每个节点中用于分支的变量的数字索引数组`树`,在那里n为节点数。有关更多信息，请参见`CutPredictor`．
`ExpandedPredictorNames`	扩展的预测器名称，存储为字符向量的单元格数组。如果模型对分类变量使用编码，那么`ExpandedPredictorNames`包括描述扩展变量的名称。否则,`ExpandedPredictorNames`是一样的`PredictorNames`．
`HyperparameterOptimizationResults`	超参数的交叉验证优化描述，存储为`BayesianOptimization`对象或包含超参数和关联值的表。非空的时`OptimizeHyperparameters`名称-值对在创建时是非空的。的设置`HyperparameterOptimizationOptions`创建时的名称-值对: `“bayesopt”`(默认)-类的对象`BayesianOptimization` `“gridsearch”`或`“randomsearch”`-使用的超参数表，观测到的目标函数值(交叉验证损失)，以及观测值从最低(最好)到最高(最差)的排序
`IsBranchNode`	一个n元素逻辑向量`真正的`对于每个分支节点和`假`的每个叶节点`树`．
`ModelParameters`	训练参数`树`．要显示所有参数值，输入`树。米odelParameters`．要访问特定的参数，请使用点表示法。
`NumObservations`	训练数据中的观测数，数值标量。`NumObservations`是否可以小于输入数据的行数`X`当在`X`或响应`Y`．
`NodeClass`	一个n的每个节点中最有可能的类的名称`树`,在那里n为树中的节点数。这个数组的每个元素都是一个字符向量，等于中的一个类名`一会`．
`NodeError`	一个n中节点误差的元素向量`树`,在那里n为节点数。`NodeError(我)`节点的误分类概率是多少`我`．
`NodeProbability`	一个n中节点的概率的元素向量`树`,在那里n为节点数。节点的概率是根据原始数据中满足节点条件的观测值所占的比例来计算的。这个比例根据分配给每个类别的任何先验概率进行调整。
`NodeRisk`	一个n-树中节点风险的元素向量，其中n为节点数。每个节点的风险是该节点的杂质(基尼系数或偏差)的度量，由节点概率加权。如果树是按两步增长的，则每个节点的风险为零。
`NodeSize`	一个n中的节点大小的元素向量`树`,在那里n为节点数。节点的大小定义为用于创建满足节点条件的树的数据的观察数。
`NumNodes`	节点的数量`树`．
`父`	一个n-元素向量，其中包含每个节点的父节点数`树`,在那里n为节点数。根节点的父节点是`0`．
`PredictorNames`	包含预测器名称的字符向量的单元格数组，按它们出现的顺序排列`X`．
`之前`	每个类的先验概率的数字向量。元素的顺序`之前`中类的顺序`一会`．元素的数量`之前`是响应中唯一类的数量。此属性是只读的。
`PruneAlpha`	数字向量，每个修剪级别有一个元素。修剪级别的取值范围为0 ~米,然后`PruneAlpha`有米+ 1个按升序排序的元素。`PruneAlpha (1)`是修剪级别0(不修剪)，`PruneAlpha (2)`用于修剪级别1，以此类推。
`PruneList`	一个n的每个节点中具有修剪级别的元素数值向量`树`,在那里n为节点数。修剪级别从0(不修剪)到米,在那里米为最深处的叶子与根节点之间的距离。
`ResponseName`	指定响应变量名称的字符向量(`Y`）.
`RowsUsed`	一个n元素逻辑向量，指示原始预测器数据的哪些行(`X`)用于装配。如果软件使用的所有行`X`,然后`RowsUsed`为空数组(`［］`）.
`ScoreTransform`	用于转换预测分类分数的函数句柄，或表示内置转换函数的字符向量。 `没有一个`意思是没有变换，或者`@ x (x)`．例如，要将分数转换函数更改为:`函数`，使用点符号。有关可用函数(请参阅`fitctree`),输入 Mdl。ScoreTransform = '函数”; 您可以为可用函数或您自己定义的函数设置函数句柄树。ScoreTransform = @函数；
`SurrogateCutCategories`	一个n-element用于分割的代理项的单元格数组`树`,在那里n节点数在吗`树`．为每个节点`k`，`SurrogateCutCategories {k}`是单元格数组。的长度`SurrogateCutCategories {k}`等于在该节点上找到的代理预测器的数量。每个元素的`SurrogateCutCategories {k}`为连续代理预测器的空字符向量，或为类别代理预测器的两元素单元格数组。这个双元素单元格数组的第一个元素列出了由这个代理拆分分配给左子元素的类别，而这个双元素单元格数组的第二个元素则列出了由这个代理拆分分配给右子元素的类别。在每个节点上分割变量的代理项的顺序与中的变量的顺序相匹配`SurrogateCutPredictor`．这个节点上的最优分割变量不会出现。对于非分支(叶)节点，`SurrogateCutCategories`包含一个空单元格。
`SurrogateCutFlip`	一个n用于代理拆分的数字切割赋值的单元格数组`树`,在那里n节点数在吗`树`．为每个节点`k`，`SurrogateCutFlip {k}`是一个数字向量。的长度`SurrogateCutFlip {k}`等于在该节点上找到的代理预测器的数量。每个元素的`SurrogateCutFlip {k}`对于分类代理预测器为零，对于连续代理预测器为数字切割赋值。数字切割赋值可以是-1或+1。对于每个用数字切割分割的代理项C基于连续的预测变量Z，则选择左子结点Z<C这个代理分割的切割赋值是+1，或者Z≥C这个代理分割的分割赋值是-1。类似地，如果Z≥C这个代理分割的切割赋值是+1，或者Z<C这个代理分割的分割赋值是-1。在每个节点上分割变量的代理项的顺序与中的变量的顺序相匹配`SurrogateCutPredictor`．这个节点上的最优分割变量不会出现。对于非分支(叶)节点，`SurrogateCutFlip`包含空数组。
`SurrogateCutPoint`	一个n用于代理的数值的单元格数组`树`,在那里n节点数在吗`树`．为每个节点`k`，`SurrogateCutPoint {k}`是一个数字向量。的长度`SurrogateCutPoint {k}`等于在该节点上找到的代理预测器的数量。每个元素的`SurrogateCutPoint {k}`要么是`南`对于分类代理预测器，或者对于连续代理预测器，进行数字切割。对于每个用数字切割分割的代理项C基于连续的预测变量Z，则选择左子结点Z<C和`SurrogateCutFlip`对于这个代理，分割为+1，如果Z≥C和`SurrogateCutFlip`对于这个代理拆分为-1。类似地，如果Z≥C和`SurrogateCutFlip`对于这个代理，分割为+1，如果Z<C和`SurrogateCutFlip`对于这个代理拆分为-1。在每个节点上分割的代理变量的顺序与返回的变量的顺序匹配`SurrogateCutPredictor`．这个节点上的最优分割变量不会出现。对于非分支(叶)节点，`SurrogateCutPoint`包含一个空单元格。
`SurrogateCutType`	一个n中每个节点的代理分割类型`树`,在那里n节点数在吗`树`．为每个节点`k`，`SurrogateCutType {k}`是一个单元格数组，其中包含此节点上的代理项拆分变量的类型。变量按照与最优预测器关联的预测量降序排序，只包含具有正向预测量的变量。在每个节点上分割变量的代理项的顺序与中的变量的顺序相匹配`SurrogateCutPredictor`．这个节点上的最优分割变量不会出现。对于非分支(叶)节点，`SurrogateCutType`包含一个空单元格。代理分割类型可以是以下两种`“连续”`如果切割在形式中被定义`Z`<`V`为一个变量`Z`和减少点`V`或`“分类”`如果削减是由是否`Z`接受一组类别中的值。
`SurrogateCutPredictor`	一个n中每个节点中用于代理分割的变量名的单元格数组`树`,在那里n节点数在吗`树`．每个元素的`SurrogateCutPredictor`是一个单元格数组，其中包含此节点上的代理项拆分变量的名称。变量按照与最优预测器关联的预测量降序排序，只包含具有正向预测量的变量。这个节点上的最优分割变量不会出现。对于非分支(叶)节点，`SurrogateCutPredictor`包含一个空单元格。
`SurrogatePredictorAssociation`	一个n-element单元阵列的预测关联度量为代理分裂`树`,在那里n节点数在吗`树`．为每个节点`k`，`SurrogatePredictorAssociation {k}`是一个数字向量。的长度`SurrogatePredictorAssociation {k}`等于在该节点上找到的代理预测器的数量。每个元素的`SurrogatePredictorAssociation {k}`给出了最佳分割和代理分割之间关联的预测度量。在每个节点上的代理分割变量的顺序是变量的顺序`SurrogateCutPredictor`．这个节点上的最优分割变量不会出现。对于非分支(叶)节点，`SurrogatePredictorAssociation`包含一个空单元格。
`W`	的比例`权重`，一个有长度的向量n，行数`X`．
`X`	预测值的矩阵或表每一列的`X`表示一个变量，每一行表示一个观察。
`Y`	类别数组、字符向量的单元数组、字符数组、逻辑向量或数字向量。每一行的`Y`的对应行的分类`X`．

对象的功能

`紧凑的`	紧凑的树
`compareHoldout`	使用新数据比较两个分类模型的准确性
`crossval`	旨在决策树
`cvloss`	交叉验证的分类误差
`边缘`	分类的优势
`收集`	收集的属性统计和机器学习工具箱对象从GPU
`石灰`	局部可解释的模型不可知解释(LIME)
`损失`	分类错误
`保证金`	分类的利润率
`partialDependence`	计算部分依赖
`plotPartialDependence`	创建部分依赖图(PDP)和个人条件期望图(ICE)
`预测`	使用分类树预测标签
`predictorImportance`	分类树中预测因子重要性的估计
`修剪`	通过修剪产生分类子树序列
`resubEdge`	边的再替换分类
`resubLoss`	再代换造成的分类错误
`resubMargin`	再替换的分类边缘
`resubPredict`	预测分类树的再替换标签
`沙普利`	沙普利值
`surrogateAssociation`	分类树中代理分裂关联的平均预测度量
`testckfold`	通过重复交叉验证比较两种分类模型的准确率
`视图`	视图分类树

复制语义

价值。要了解值类如何影响复制操作，请参见复制对象．

例子

全部折叠

生成分类树

打开生活的脚本

生成一个分类树电离层数据集。

负载电离层tc = fitctree (X, Y)

tc = ClassificationTree ResponseName: 'Y' CategoricalPredictors: [] ClassNames: {'b' ' 'g'} ScoreTransform: 'none' NumObservations: 351属性，方法

控制树的深度

打开生活的脚本

控件可以控制树的深度MaxNumSplits，MinLeafSize,或MinParentSize名称-值对参数。fitctree默认情况下，生成深度决策树。您可以种植较浅的树，以减少模型复杂性或计算时间。

加载电离层数据集。

负载电离层

对于正在生长的分类树，树深度控制器的默认值是:

n - 1为MaxNumSplits．n为训练样本量。
1为MinLeafSize．
10为MinParentSize．

对于大的训练样本大小，这些默认值趋向于长出深度树。

使用默认值训练分类树以控制树的深度。采用10倍交叉验证对模型进行交叉验证。

rng (1);%的再现性MdlDefault = fitctree (X, Y,“CrossVal”，“上”）;

画一个直方图的数量强加的分裂的树。还有，看看其中一棵树。

numBranches = @ (x)和(x.IsBranch);mdldefaultnumpartitions = cellfun(numBranches, mdldefault . training);图;直方图(mdlDefaultNumSplits)

图中包含一个轴对象。坐标轴对象包含一个直方图类型的对象。

视图(MdlDefault。训练有素的{1},“模式”，“图”）

图分类树查看器包含一个轴对象和其他类型的uimenu, uicontrol对象。axis对象包含51个类型为line, text的对象。

平均拆分次数约为15次。

假设您想要一个不像使用默认分割次数训练的分类树那么复杂(深度)的分类树。训练另一棵分类树，但将最大拆分次数设置为7次，这大约是默认分类树平均拆分次数的一半。采用10倍交叉验证对模型进行交叉验证。

Mdl7 = fitctree (X, Y,“MaxNumSplits”7“CrossVal”，“上”）;视图(Mdl7。训练有素的{1},“模式”，“图”）

图分类树查看器包含一个轴对象和其他类型的uimenu, uicontrol对象。axis对象包含21个类型为line, text的对象。

比较模型的交叉验证分类误差。

classErrorDefault = kfoldLoss (MdlDefault)

classErrorDefault = 0.1168

classError7 = kfoldLoss (Mdl7)

classError7 = 0.1311

Mdl7比MdlDefault．

参考文献

[1] Breiman, L.， J. Friedman, R. Olshen, C. Stone。分类与回归树．佛罗里达州博卡拉顿:CRC出版社，1984。

扩展功能

C / c++代码生成
使用MATLAB®Coder™生成C和c++代码。

使用注意事项及限制:

的预测和更新函数支持代码生成。金宝app
将分类树的预测模型集成到Simulink中金宝app^®，你可以使用ClassificationTree预测块在统计和机器学习工具箱™库或MATLAB^®函数块预测函数。
当你用fitctree，适用以下限制。
- 价值“ScoreTransform”名称-值对参数不能是匿名函数。对于定点代码生成，“ScoreTransform”值不能“invlogit”．
- 的值不能使用代理符分隔“代孕”名称-值对参数必须为“关闭”．
- 对于定点代码生成和带有编码器配置器的代码生成，适用以下附加限制。
  - 分类预测(逻辑，分类，字符，字符串,或细胞)不支持。金宝app你不能使用“CategoricalPredictors”名称-值参数。要在模型中包含分类预测器，可以使用dummyvar在拟合模型之前。
  - 类标签的分类不支持数据类型。金宝app训练数据中的类标签值(资源描述或Y的价值“类名”属性的名称-值参数不能是数组分类数据类型。