主要内容

predictorImportance

对分类树预测的重要性估计

语法

小鬼= predictorImportance(树)

描述

偶尔=预测orimportance(计算预测的重要性估计通过对每个预测器的分裂所造成的风险变化进行求和,并除以分支节点的数量。

输入参数

创建的分类树fitctree,或由袖珍的方法。

输出参数

偶尔

作为预测器(列)的数量相同数量的元素数量的行向量.X.条目是预测器重要性的估计,与0代表最小的重要性。

例子

展开全部

装载Fisher的Iris数据集。

负载渔民

生成分类树。

Mdl = fitctree(量、种类);

计算所有预测变量的预测器重要性估计。

小鬼= predictorImportance (Mdl)
Imp =1×40 0 0.0907 0.0682

前两个元素偶尔为零。因此,前两个预测不进入MDL.虹膜分类的计算。

如果您使用代理分割,预测器重要性的估计不依赖于预测器的顺序,但如果您不使用代理分裂,请执行命令。

排列前面示例中的数据列的顺序,生长另一棵分类树,然后计算预测器重要性估计。

measPerm = meas(:,[4 1 3 2]);mdlperm = fitcteree(measperm,speies);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1515 0 0.0074 0

预测的重要性重要性的估计不是排列偶尔

装载Fisher的Iris数据集。

负载渔民

生成分类树。指定代理符拆分的用法。

MDL = FITCTREE(MEAM,物种,“代孕”“上”);

计算所有预测变量的预测器重要性估计。

小鬼= predictorImportance (Mdl)
Imp =1×40.0791 0.0374 0.1530 0.1529

所有预测因子都有一些重要性。前两个预测因子比最终两者更重要。

排列前面示例中的数据列的顺序,生长另一棵指定代理分割用法的分类树,然后计算预测器重要性估计。

measPerm = meas(:,[4 1 3 2]);MdlPerm = fitctree (measPerm物种,“代孕”“上”);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1529 0.0791 0.1530 0.0374

预测原子重要性的估计是排列偶尔

加载census1994数据集。考虑一个模型,它根据一个人的年龄、工人阶级、教育水平、婚姻状况、种族、性别、资本损益和每周工作时间来预测一个人的收入类别。

负载census1994x = AdultData(:,{'年龄'“workClass”“education_num”'婚姻状况'“种族”...'性别'“capital_gain”'capital_loss''每周几小时''薪水'});

使用的类别变量中显示类别的数目总结

总结(X)
变量:年龄:32561x1双重值:min 17中位数37 max 90工作组:32561x1分类价值:联邦 - 哥多960本地-Gov 2093从未工作过7私人22696自我emp-Inc 1116自我emp-not-Inc 2541状态 -GOV 1298没有支付14号Nummissing 1836教育分离1025丧偶993种族:32561x1分类价值:Amer-Indian-Eskimo 311亚洲岛岛屿1039黑色3124其他271 White 27816性别:32561x1分类价值:女性10771男性21790 Capital_gain:32561x1双值:min 0中位0 max 99999Capital_Loss:32561x1双重值:min 0中位0 max 4356小时_per_week:32561x1双重值:min 1中位数40 max 99薪水:32561x1分类值:<= 50k 24720> 50k 7841

由于分类变量中的几个类别与连续变量中的级别相比,标准推车,预测器分裂算法更喜欢在分类变量上拆分连续预测器。

使用整个数据集训练分类树。要种植无偏的树,指定使用曲率测试的分裂预测器。由于数据中缺少观察值,请指定代理拆分的用法。

mdl = fitctree(x,'薪水''预测圈'“弯曲”...“代孕”“上”);

通过在每个预测器上求解风险的变化来估计预测值重要值,并将总和除以分支节点的数量。使用条形图比较估计值。

Imp = predictorimportance(mdl);数字;酒吧(IMP);标题('预测重点估计');ylabel ('估计');包含('预测者');H = GCA;h.xticklabel = mdl.predictornames;H.xticklabelrotation = 45;H.TicklabelInterpreter =.“没有”

图包含轴。具有标题预测值重要性估计的轴包含类型栏的对象。

在这种情况下,capital_gain是最重要的预测因素,其次是education_num

更多关于

展开全部