主要内容

predictorImportance

估计预测重要的分类树

语法

小鬼= predictorImportance(树)

描述

小鬼= predictorImportance ()计算估计预测的重要性通过总结变化风险将在每一个预测和分裂之和除以分支节点的数量。

输入参数

创建一个分类树fitctree紧凑的方法。

输出参数

小鬼

一个行向量与相同数量的元素数量预测(列)。X。条目的估计预测的重要性,0代表最小的重要性。

例子

全部展开

加载费雪的虹膜数据集。

负载fisheriris

一个分类树生长。

Mdl = fitctree(量、种类);

计算预测重要性估计预测变量。

小鬼= predictorImportance (Mdl)
小鬼=1×40 0 0.0907 0.0682

前两个元素小鬼为零。因此,前两个因素不进入Mdl计算分类虹膜。

估计预测的重要性不依赖于预测如果你使用代理分裂的顺序,但取决于订单如果不使用代理分裂。

排列的顺序数据列在前面的例子中,增加另一个分类树,然后计算预测重要性估计。

measPerm =量(:[4 1 3 2]);MdlPerm = fitctree (measPerm、物种);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.0074 0.1515 0 0

预测的估计不是一个排列的重要性小鬼

加载费雪的虹膜数据集。

负载fisheriris

一个分类树生长。指定使用代理分裂。

Mdl = fitctree(量、种类、“代孕”,“上”);

计算预测重要性估计预测变量。

小鬼= predictorImportance (Mdl)
小鬼=1×40.0791 0.0374 0.1530 0.1529

所有的预测都有重要性。前两个预测比最后两不太重要。

排列的顺序数据列在前面的例子中,另一个分类树指定使用代理分裂生长,然后计算预测重要性估计。

measPerm =量(:[4 1 3 2]);MdlPerm = fitctree (measPerm物种,“代孕”,“上”);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1529 0.0791 0.1530 0.0374

预测估计的重要性的排列小鬼

加载census1994数据集。考虑一个模型,预测一个人的工资类别考虑到他们的年龄,工人阶级,教育程度、婚姻状况、种族、性别、资本收益和损失,每周工作小时数。

负载census1994X = adultdata (: {“年龄”,“workClass”,“education_num”,“marital_status”,“种族”,“性”,“capital_gain”,“capital_loss”,“hours_per_week”,“工资”});

显示类别的数量代表的分类变量使用总结

总结(X)
变量:年龄:32561 x1双重价值:17分钟37 Max 90 workClass中位数:32561 x1分类值:Federal-gov 960年地方政府2093年从未22696私人Self-emp-inc 1116 Self-emp-not-inc 2541 State-gov 1298 1836年无薪14 NumMissing education_num: 32561 x1双重价值:1分钟10马克斯16 marital_status中位数:32561 x1分类值:4443 Married-AF-spouse 23 Married-civ-spouse 14976年离婚Married-spouse-absent 418未婚10683分离1025 993年丧偶的种族:32561 x1分类值:Amer-Indian-Eskimo 311 Asian-Pac-Islander 1039黑3124其他271白27816性:32561 x1分类值:女21790 10771名男性capital_gain: 32561 x1双重价值:最小值0最大99999 capital_loss: 32561 x1双重价值:最小值0最大4356 hours_per_week: 32561 x1双重价值:1分钟40 Max 99薪水中位数:32561 x1分类值:< = 50 k 24720 > 7841年50 k

因为有几类代表分类变量和连续变量的水平相比,标准的车,predictor-splitting算法更喜欢将连续预测的分类变量。

使用整个数据集训练一个分类树。成长无偏树木,指定使用曲率检测分割预测。因为有失踪的观测数据,指定使用代理分裂。

Mdl = fitctree (X,“工资”,“PredictorSelection”,“弯曲”,“代孕”,“上”);

估计预测重要性值通过加法的变化风险将在每一个预测和分裂之和除以分支节点的数量。使用条形图比较估计。

小鬼= predictorImportance (Mdl);图;酒吧(imp);标题(的预测估计的重要性);ylabel (“估计”);包含(“预测”);甘氨胆酸h =;h。XTickLabel = Mdl.PredictorNames;h。XTickLabelRotation = 45;h。TickLabelInterpreter =“没有”;

图包含一个坐标轴对象。坐标轴对象与标题预测重要性估计,包含预测,ylabel估计包含一个对象类型的酒吧。

在这种情况下,capital_gain是最重要的因素,其次是吗education_num

更多关于

全部展开

扩展功能