predictorImportance
估计预测重要的分类树
语法
小鬼= predictorImportance(树)
输出参数
|
一个行向量与相同数量的元素数量预测(列) |
例子
估计预测重要性值
加载费雪的虹膜数据集。
负载fisheriris
一个分类树生长。
Mdl = fitctree(量、种类);
计算预测重要性估计预测变量。
小鬼= predictorImportance (Mdl)
小鬼=1×40 0 0.0907 0.0682
前两个元素小鬼
为零。因此,前两个因素不进入Mdl
计算分类虹膜。
估计预测的重要性不依赖于预测如果你使用代理分裂的顺序,但取决于订单如果不使用代理分裂。
排列的顺序数据列在前面的例子中,增加另一个分类树,然后计算预测重要性估计。
measPerm =量(:[4 1 3 2]);MdlPerm = fitctree (measPerm、物种);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.0074 0.1515 0 0
预测的估计不是一个排列的重要性小鬼
。
代理分裂和预测的重要性
加载费雪的虹膜数据集。
负载fisheriris
一个分类树生长。指定使用代理分裂。
Mdl = fitctree(量、种类、“代孕”,“上”);
计算预测重要性估计预测变量。
小鬼= predictorImportance (Mdl)
小鬼=1×40.0791 0.0374 0.1530 0.1529
所有的预测都有重要性。前两个预测比最后两不太重要。
排列的顺序数据列在前面的例子中,另一个分类树指定使用代理分裂生长,然后计算预测重要性估计。
measPerm =量(:[4 1 3 2]);MdlPerm = fitctree (measPerm物种,“代孕”,“上”);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1529 0.0791 0.1530 0.0374
预测估计的重要性的排列小鬼
。
无偏预测重要性估计
加载census1994
数据集。考虑一个模型,预测一个人的工资类别考虑到他们的年龄,工人阶级,教育程度、婚姻状况、种族、性别、资本收益和损失,每周工作小时数。
负载census1994X = adultdata (: {“年龄”,“workClass”,“education_num”,“marital_status”,“种族”,…“性”,“capital_gain”,“capital_loss”,“hours_per_week”,“工资”});
显示类别的数量代表的分类变量使用总结
。
总结(X)
变量:年龄:32561 x1双重价值:17分钟37 Max 90 workClass中位数:32561 x1分类值:Federal-gov 960年地方政府2093年从未22696私人Self-emp-inc 1116 Self-emp-not-inc 2541 State-gov 1298 1836年无薪14 NumMissing education_num: 32561 x1双重价值:1分钟10马克斯16 marital_status中位数:32561 x1分类值:4443 Married-AF-spouse 23 Married-civ-spouse 14976年离婚Married-spouse-absent 418未婚10683分离1025 993年丧偶的种族:32561 x1分类值:Amer-Indian-Eskimo 311 Asian-Pac-Islander 1039黑3124其他271白27816性:32561 x1分类值:女21790 10771名男性capital_gain: 32561 x1双重价值:最小值0最大99999 capital_loss: 32561 x1双重价值:最小值0最大4356 hours_per_week: 32561 x1双重价值:1分钟40 Max 99薪水中位数:32561 x1分类值:< = 50 k 24720 > 7841年50 k
因为有几类代表分类变量和连续变量的水平相比,标准的车,predictor-splitting算法更喜欢将连续预测的分类变量。
使用整个数据集训练一个分类树。成长无偏树木,指定使用曲率检测分割预测。因为有失踪的观测数据,指定使用代理分裂。
Mdl = fitctree (X,“工资”,“PredictorSelection”,“弯曲”,…“代孕”,“上”);
估计预测重要性值通过加法的变化风险将在每一个预测和分裂之和除以分支节点的数量。使用条形图比较估计。
小鬼= predictorImportance (Mdl);图;酒吧(imp);标题(的预测估计的重要性);ylabel (“估计”);包含(“预测”);甘氨胆酸h =;h。XTickLabel = Mdl.PredictorNames;h。XTickLabelRotation = 45;h。TickLabelInterpreter =“没有”;
在这种情况下,capital_gain
是最重要的因素,其次是吗education_num
。
更多关于
预测的重要性
predictorImportance
计算重要性措施的预测在树上求和节点的变化风险由于分裂每个预测,然后之和除以总数量的分支节点。节点的变化风险的区别是风险的父节点和总风险两个孩子。例如,如果一个树分裂一个父节点(例如,节点1)为两个子节点(例如,节点2和3)predictorImportance
增加分割预测的重要性
(R1- - - - - -R2- - - - - -R3) /N分支,
在哪里R我节点的节点风险吗我,N分支分支节点的总数。一个节点的风险错误被定义为一个节点或节点杂质的加权节点概率:
R我=P我E我,
在哪里P我节点的概率节点吗我,E我要么是节点错误(树种植通过最小化两个标准)或节点杂质(树种植通过最小化一个杂质标准,如基尼系数或异常)的节点我。
预测估计的重要性取决于你使用代理将进行训练。
如果您使用代理分裂,
predictorImportance
总结节点风险所有分裂的变化在每个分支节点,包括代理分裂。如果不使用代理分裂,那么函数求和最好的分裂在每个分支节点。估计预测的重要性不依赖于预测如果你使用代理分裂的顺序,但取决于订单如果不使用代理分裂。
如果您使用代理分裂,
predictorImportance
计算估计减少修剪树之前(或合并的叶子)。如果不使用代理分裂,predictorImportance
计算估计减少修剪树后。因此,修剪影响因素重要性的树的种植过程中没有使用代理分裂,并且不影响预测的重要性与代理分裂树生长。
杂质和节点错误
基于决策树分裂节点杂质或节点的错误。
杂质之一的含义,这取决于你的选择SplitCriterion
名称-值对论点:
基尼的多样性指数(
gdi
)——一个节点的基尼系数和在哪里类我在节点p(我)是类与类的观察到的分数我到达节点。一个节点只有一个类(A纯节点)基尼指数
0
;否则,基尼系数是正的。基尼系数是衡量节点杂质。异常(
“异常”
)- - - - - -p(我)一样基尼指数,定义节点的异常一个纯粹的节点有异常
0
;否则,异常是正的。两个规则(
“两个”
)- - -两个不是一个纯洁的一个节点,但不同的衡量决定如何分割一个节点。让l(我)表示成员类的一部分我在左子节点分裂后,R(我)表示成员类的一部分我在右子节点后分裂。选择分割准则最大化在哪里P(l),P(R)是观察的分数,分别分成左右。如果表达式很大,纯净的分裂使每个孩子节点。同样,如果表达式是小,分割了每个子节点相似,因此类似于父节点。分割没有增加节点纯度。
节点错误——节点错误节点分类错误的类的一部分。如果j类的训练样本数量最多的一个节点,该节点的错误是什么
1 -p(j)。
扩展功能
GPU数组
加速代码运行在一个图形处理单元(GPU)使用并行计算工具箱™。
这个函数完全支持GPU数组。金宝app有关更多信息,请参见运行在GPU MATLAB函数(并行计算工具箱)。
打开举例
你们possedez一个版本modifiee de cet(中央东部东京)为例。Souhaitez-vous打开cet(中央东部东京)为例用vos修改吗?
对MATLAB
你们有派对在联合国留置权,对应这个对MATLAB:
倒实行la对saisissez-la在fenetre德对MATLAB。Les navigateurs web不sup金宝appportent Les MATLAB命令。
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。