主要内容

成长决策树

默认情况下,菲茨特里菲特里使用标准推车算法[1]创建决策树。也就是说,它们执行以下步骤:

  1. 从所有输入数据开始,检查每个预测器上所有可能的二进制分割。

  2. 选择具有最佳优化标准的拆分。

    • 拆分可能导致子节点的观测值太少(小于小叶大小参数)。为了避免这种情况,软件选择一个能产生最佳优化标准的分割小叶大小限制

  3. 实行分裂。

  4. 对两个子节点递归重复。

解释还需要两项:优化标准和停止规则的描述。

停止规则:当下列任何一种保持时停止分裂:

  • 节点是纯净的.

    • 对于分类,如果一个节点只包含一个类的观察值,则该节点是纯节点。

    • 对于回归,如果该节点中观测响应的均方误差(MSE)低于整个数据中观测响应的MSE乘以每个节点的二次误差公差,则该节点为纯节点(正交误差容限参数)。

  • 少于MinParentSize此节点中的观察结果。

  • 施加在此节点上的任何拆分都会生成小于小叶大小观察。

  • 算法分裂最大数分裂节点。

优化标准:

  • 回归:均方误差(MSE)。选择一个分割以最小化预测与训练数据相比的MSE。

  • 分类:三种度量之一,取决于分裂标准名称-值对:

    • “gdi”(默认的基尼多样性指数)

    • “两个”

    • “越轨”

    有关详细信息,请参阅分类树更多关于.

有关可选的分割预测器选择技术,请参阅选择分割预测器选择技术.

对于连续预测器,树可以在为该预测器找到的任何两个相邻唯一值之间分割一半。对于具有L级别,分类树需要考虑2L–1–1个拆分以找到最佳拆分。或者,您可以选择一个启发式算法来找到一个好的拆分,如中所述分类树中分类预测因子的分裂.

对于双核及以上系统,菲茨特里菲特里使用Intel并行化训练决策树®线程构造块(TBB)。有关英特尔TBB的详细信息,请参阅https://software.intel.com/content/www/us/en/develop/tools/oneapi/components/onetbb.html.

参考文献

[1] 布莱曼、弗里德曼、奥尔申和斯通。分类和回归树。佛罗里达州博卡拉顿:查普曼与霍尔,1984年。

另见

|||

相关的话题