通过对回归树随机森林的包外预测器观察的排列来估计预测器的重要性
当种植随机森林使用fitrensemble.
:
标准推车倾向于选择包含许多不同值的分割预测器,例如连续变量,在包含几个不同值的那些中,例如,分类变量[3].如果预测器数据集是异构的,或者如果有比其他变量具有相对较少的不同值的预测器,那么考虑指定曲率或交互测试。
使用标准推车生长的树木对预测器变量相互作用不敏感。而且,这种树木在许多不相关的预测因子存在中的可能性不太可能识别重要的变量,而不是应用相互作用测试的存在。因此,要考虑预测器相互作用并在存在许多无关变量的情况下确定重要变量,请指定交互测试[2].
如果训练数据包含许多预测器,而您想要分析预测器的重要性,那么请指定“NumVariablesToSample”
的templateTree
函数作为'全部'
对于合奏的树型学习者。否则,软件可能不会选择一些预测因子,低估它们的重要性。
有关详细信息,请参见templateTree
和选择分裂预测器选择技术.
[1] Breiman, L., J. Friedman, R. Olshen, C. Stone。分类和回归树.Boca Raton,FL:CRC Press,1984。
[2] Loh, W.Y., <具有无偏变量选择和交互检测的回归树>Statistica中央研究院,卷。12,2002,第361-386页。
[3] LOH,W.Y.和Y.S.Shih。“分类树的分离选择方法。”Statistica中央研究院, 1997年第7卷,第815-840页。