主要内容

oobPermutedPredictorImportance

预测估计重要性的排列out-of-bag预测观测随机森林回归树

描述

例子

小鬼= oobPermutedPredictorImportance (Mdl)返回一个向量的out-of-bag,预测估计排列重要性使用随机森林回归树MdlMdl必须是一个RegressionBaggedEnsemble模型对象。

例子

小鬼= oobPermutedPredictorImportance (Mdl,名称,值)使用指定的一个或多个额外的选项名称,值对参数。例如,您可以加快计算使用并行计算或显示使用哪个树的预测评估的重要性。

输入参数

全部展开

随机森林回归树,指定为一个RegressionBaggedEnsemble创建的模型对象fitrensemble

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

学习者使用的指数预测评估重要性,指定为逗号分隔组成的“学习者”和正整数的数值向量。值必须是Mdl.NumTrained。当oobPermutedPredictorImportance估计,预测的重要性,它包含的学习者Mdl.Trained (学习者)只有,学习者的值是“学习者”

例子:“学习者”,[1:2 Mdl.NumTrained):

并行计算选项,指定为逗号分隔组成的“选项”和一个结构数组返回statset“选项”需要一个并行计算工具箱™许可证。

oobPermutedPredictorImportance使用“UseParallel”字段。statset (UseParallel,真的)调用一个池的工人。

例子:“选项”,statset (UseParallel,真的)

输出参数

全部展开

Out-of-bag,预测估计排列重要性,返回1 -p数值向量。p是训练数据中预测变量的数量(大小(Mdl.X, 2))。Imp (j)预测预测的重要性吗Mdl.PredictorNames (j)

例子

全部展开

加载carsmall数据集。考虑一个模型,预测的平均燃油经济性汽车由于其加速度,缸数,发动机排量,马力,制造商,模型,和体重。考虑气缸,制造行业,Model_Year作为分类变量。

负载carsmall气缸=分类(缸);及时通知=分类(cellstr (Mfg));Model_Year =分类(Model_Year);X =表(加速、气缸、排量、马力、制造行业,Model_Year、重量、MPG);

500你可以训练随机森林回归树使用整个数据集。

Mdl = fitrensemble (X,“英里”,“方法”,“包”,“NumLearningCycles”,500);

fitrensemble使用默认模板树对象templateTree ()作为一个学习者当疲软“方法”“包”。在这个例子中,对于再现性,指定“重现”,真的当您创建一个树模板对象,然后使用对象作为弱的学习者。

rng (“默认”)%的再现性t = templateTree (“复制”,真正的);% reproducibiliy随机预测的选择Mdl = fitrensemble (X,“英里”,“方法”,“包”,“NumLearningCycles”,500,“学习者”t);

Mdl是一个RegressionBaggedEnsemble模型。

估计预测措施重要性排列out-of-bag观察。使用条形图比较估计。

小鬼= oobPermutedPredictorImportance (Mdl);图;酒吧(imp);标题(“Out-of-Bag排列预测估计的重要性);ylabel (“估计”);包含(“预测”);甘氨胆酸h =;h。XTickLabel = Mdl.PredictorNames;h。XTickLabelRotation = 45;h。TickLabelInterpreter =“没有”;

图包含一个坐标轴对象。坐标轴对象与标题Out-of-Bag排列预测重要性估计包含一个对象类型的酒吧。

小鬼是一个1-by-7向量预测重要的估计。大值对预测预测表明有更大的影响。在这种情况下,重量是最重要的因素,其次是吗Model_Year

加载carsmall数据集。考虑一个模型,预测的平均燃油经济性汽车由于其加速度,缸数,发动机排量,马力,制造商,模型,和体重。考虑气缸,制造行业,Model_Year作为分类变量。

负载carsmall气缸=分类(缸);及时通知=分类(cellstr (Mfg));Model_Year =分类(Model_Year);X =表(加速、气缸、排量、马力、制造行业,Model_Year、重量、MPG);

显示类别的数量代表的分类变量。

numCylinders =元素个数(类别(气缸))
numCylinders = 3
numMfg =元素个数(类别(有限公司))
numMfg = 28
numModelYear =元素个数(类别(Model_Year))
numModelYear = 3

因为只有在有三个类别气缸Model_Year标准车,predictor-splitting算法更喜欢将连续预测这两个变量。

500年训练随机森林回归树使用整个数据集。无偏树木生长,指定使用曲率检测分割预测。因为有数据缺失值,指定使用代理分裂。复制随机预测的选择,通过使用随机数生成器的种子rng并指定“重现”,真的

rng (“默认”);%的再现性t = templateTree (“PredictorSelection”,“弯曲”,“代孕”,“上”,“复制”,真正的);%的再现性随机预测的选择Mdl = fitrensemble (X,“英里”,“方法”,“包”,“NumLearningCycles”,500,“学习者”t);

估计预测措施重要性排列out-of-bag观察。并行执行计算。

选择= statset (“UseParallel”,真正的);小鬼= oobPermutedPredictorImportance (Mdl,“选项”、选择);
开始平行池(parpool)使用“本地”概要文件…连接到平行池(工人数量:6)。

使用条形图比较估计。

图;酒吧(imp);标题(“Out-of-Bag排列预测估计的重要性);ylabel (“估计”);包含(“预测”);甘氨胆酸h =;h。XTickLabel = Mdl.PredictorNames;h。XTickLabelRotation = 45;h。TickLabelInterpreter =“没有”;

在这种情况下,Model_Year是最重要的因素,其次是吗气缸。比较这些结果的结果估计预测的重要性

更多关于

全部展开

提示

当越来越多的随机森林使用fitrensemble:

  • 标准车往往选择分裂预测包含许多不同的值,例如,连续变量,在那些包含几个不同的值,例如,分类变量[3]。如果预测数据集是异构的,或者有预测比其他变量的不同值相对较少,那么考虑指定曲率或交互测试。

  • 树木种植使用标准的车不敏感的预测变量的交互。这种树木也不容易识别的重要变量的存在许多不相关的预测比应用程序交互的测试。因此,考虑到预测的相互作用和识别变量重要性的存在许多不相关的变量,指定交互测试[2]

  • 如果你想要的训练数据包括许多预测和分析预测的重要性,然后指定“NumVariablesToSample”templateTree函数作为“所有”树学习者的合奏。否则,软件可能不选择一些预测,低估了它们的重要性。

更多细节,请参阅templateTree选择分割预测选择技术

引用

[1]Breiman, L。,J. Friedman, R. Olshen, and C. Stone.分类和回归树。波卡拉顿,FL: CRC出版社,1984年。

[2]Loh, W.Y.“回归树与公正的变量选择和交互检测。”Statistica中央研究院12卷,2002年,页361 - 386。

[3]Loh,施W.Y.和屈服强度。“分裂选择分类树的方法。”Statistica中央研究院7卷,1997年,页815 - 840。

扩展功能

介绍了R2016b