主要内容

predictorImportance

对分类树预测的重要性估计

语法

小鬼= predictorImportance(树)

描述

小鬼=预测orimportance(计算预测器重要性的估计通过对每个预测器的分裂所造成的风险变化进行求和,并除以分支节点的数量。

输入参数

创建的分类树fitctree,或由袖珍的方法。

输出参数

小鬼

作为预测器(列)的数量相同数量的元素数量的行向量.X.条目是预测器重要性的估计,与0代表最小的重要性。

例子

展开全部

载入费雪的虹膜数据集。

负载渔民

生成分类树。

Mdl = fitctree(量、种类);

计算所有预测变量的预测器重要性估计。

小鬼= predictorImportance (Mdl)
Imp =1×40 0 0.0907 0.0682

前两个元素小鬼为零。因此,前两个预测不进入MDL.虹膜分类的计算。

如果使用代理分割,预测器重要性的估计不依赖于预测器的顺序,但如果不使用代理分割,则依赖于顺序。

排列前面示例中的数据列的顺序,生长另一棵分类树,然后计算预测器重要性估计。

MEASPERM = MEAS(:,[4 1 3 2]);mdlperm = fitctree(measperm,speies);Impperm = Predictorimportance(mdlperm)
impPerm =1×40.1515 0 0.0074 0

预测的重要性估计不是豁免小鬼

载入费雪的虹膜数据集。

负载渔民

生成分类树。指定代理符拆分的用法。

Mdl = fitctree(量、种类、“代孕”“上”);

计算所有预测变量的预测器重要性估计。

小鬼= predictorImportance (Mdl)
Imp =1×40.0791 0.0374 0.1530 0.1529

所有预测因素都有一些重要性。前两个预测因子不如最终两者重要。

换乘数据列在上一个示例中的顺序,生长另一个分类树,指定了代理分割的使用,然后计算预测器重要性估计。

MEASPERM = MEAS(:,[4 1 3 2]);mdlperm = fitctree(测定植物,物种,“代孕”“上”);Impperm = Predictorimportance(mdlperm)
impPerm =1×40.1529 0.0791 0.1530 0.0374

对预测因子重要性的估计是一个排列小鬼

加载人口普查1994.数据集。考虑一个模型,它根据一个人的年龄、工人阶级、教育水平、婚姻状况、种族、性别、资本损益和每周工作时间来预测一个人的收入类别。

负载人口普查1994.X = adultdata (: {“年龄”“workClass”“education_num”'婚姻状况'“种族”...'性别'“capital_gain”'capital_loss''每周几小时'“工资”});

使用的类别变量中显示类别的数目概括

总结(X)
变量:年龄:年龄:32561x1双重值:min 17中位数37 max 90工作班:32561x1分类价值:联邦 - 哥多960本地-GOV 2093从未工作7私人22696自我Emp-Inc 1116自我emp-not-Inc 2541状态 -GOV 1298没有支付14号Nummissing 1836教育分离1025丧偶993种族:32561x1分类价值:Amer-Indian-Eskimo 311 Asian-Pac-Islander 1039 Black 3124其他271 White 27816性别:32561x1分类价值:女性10771男性21790 Capital_gain:32561x1双值:min 0中位0 max 99999capital_loss:32561x1双重值:min 0中位0 max 4356小时_per_week:32561x1双重值:min 1中位数40 max 99薪水:32561x1分类值:<= 50k 24720> 50k 7841

由于与连续变量的水平相比,在分类变量中所代表的类别很少,因此标准的CART、预测器分割算法更喜欢分割连续预测器而不是分类变量。

使用整个数据集训练分类树。要种植无偏的树,指定使用曲率测试的分裂预测器。由于数据中缺少观察值,请指定代理拆分的用法。

mdl = fitctree(x,“工资”'预测互联'“弯曲”...“代孕”“上”);

通过在每个预测器上的拆分和分支节点的数量划分总量,通过求解风险的变化来估计预测值的重要值。使用条形图比较估计值。

Imp = predictorimportance(mdl);数字;酒吧(IMP);标题('预测重点估计');ylabel ('估计');包含(“预测”);H = GCA;h.xticklabel = mdl.predictornames;H.xticklabelrotation = 45;H.TicklabelInterpreter =.'没有任何'

图中包含一个轴对象。标题为Predictor Importance estimate的axes对象包含一个类型为bar的对象。

在这种情况下,capital_gain是最重要的预测因素,其次是education_num

更多关于

展开全部

扩展功能