默认情况下,fitctree
和fitrtree
使用标准车算法[1]创建决策树。也就是说,它们执行以下步骤:
从所有输入数据开始,检查每个预测器上所有可能的二进制分割。
选择具有最佳优化准则的分割。
分隔可能导致子节点的观察值过少(少于MinLeafSize
参数)。为了避免这种情况,软件选择一个能产生最佳优化标准的分割MinLeafSize
约束。
实施分割。
递归地重复两个子节点。
说明还需要两项:优化准则和停止规则的描述。
停止规则:当下列任何一种保持时停止分裂:
节点是纯。
对于分类,如果一个节点只包含一个类的观察值,那么它就是纯节点。
对于回归,如果该节点中观测到的响应的均方误差(MSE)低于整个数据中观测到的响应的均方误差乘以每个节点的二次误差公差(QuadraticErrorTolerance
参数)。
比…少MinParentSize
在这个节点的观察。
对该节点施加的任何分割都会产生小于MinLeafSize
观察。
该算法将MaxNumSplits
节点。
优化准则:
回归:均方误差(MSE)。选择一个分割来最小化与训练数据相比的预测的MSE。
分类:三种措施之一,视设置而定SplitCriterion
名称-值对:
gdi的
(默认的基尼多样性指数)
“两个”
“异常”
有关详细信息,请参见ClassificationTree
更多关于。
有关分离预测器选择的替代技术,请参阅选择分裂预测器选择技术。
对于连续预测器,树可以在为该预测器找到的任意两个相邻的唯一值之间进行中间分割。作为一个绝对预测因子l层次,一个分类树需要考虑2l1-1分割来找到最优分割。或者,您可以选择一个启发式算法来找到一个好的分割,如分类树分类预测器的分裂。
对于双核及以上系统,fitctree
和fitrtree
使用Intel并行化训练决策树®线程构建块(TBB)。关于Intel TBB的详细介绍请参见https://software.intel.com/en-us/intel-tbb。
布雷曼,J. H. Friedman, R. A. Olshen, C. J. Stone。分类和回归树。佛罗里达州博卡拉顿:查普曼和霍尔,1984年。
ClassificationTree
|fitctree
|fitrtree
|RegressionTree