TreeBagger
创建决策树的袋子
个人决策树overfit。Bootstrap-aggregated (袋装)决策树结合的结果,许多决策树,这样可以减少过度拟合的影响,提高了泛化。TreeBagger
增长的决策树合奏使用引导数据的样本。同时,TreeBagger
选择一个随机的子集预测在每个决策使用分裂的随机森林算法[1]。
默认情况下,TreeBagger
包分类树。袋回归树相反,指定“方法”,“回归”
。
对于回归问题,TreeBagger
金宝app支持的意思,分位数回归(即分位数回归森林[5])。
语法
ResponseVarName Mdl = TreeBagger (NumTrees(资源)
Mdl = TreeBagger (NumTrees、资源描述、公式)
Mdl = TreeBagger (NumTrees台,Y)
B = TreeBagger (NumTrees, X, Y)
B = TreeBagger (NumTrees, X, Y,名称,值)
描述
返回一个整体的Mdl
= TreeBagger (NumTrees
,资源描述
,ResponseVarName
)NumTrees
袋装分类树训练用表中的示例数据资源描述
。ResponseVarName
响应变量的名称吗资源描述
。
返回一个袋装分类树合奏训练用表中的示例数据Mdl
= TreeBagger (NumTrees
,资源描述
,公式
)资源描述
。公式
是一个解释性模型反应和预测变量的子集资源描述
适合使用Mdl
。指定公式
使用威尔金森符号。有关更多信息,请参见威尔金森符号。
返回一个使用预测变量的分类树表Mdl
= TreeBagger (NumTrees
,资源描述
,Y
)资源描述
和类标签向量Y
。
Y
是一个数组的响应数据。的元素Y
对应的行资源描述
。的分类,Y
是真正的集合类标签。标签可以是任何分组变量,也就是说,一个数字或逻辑向量,字符矩阵,字符串数组,单元阵列特征向量,或分类向量。TreeBagger
将标签转换为单元阵列的特征向量。对于回归,Y
是一个数值向量。增长回归树,您必须指定名称-值对“方法”,“回归”
。
创建一个乐团B
= TreeBagger (NumTrees
,X
,Y
)B
的NumTrees
决策树预测反应Y
作为预测的数值矩阵函数的训练数据,X
。在每一行X
代表了一种观察和每一列代表一个预测或特性。
B = TreeBagger (NumTrees, X, Y,名称,值)
指定可选参数名称-值对:
“InBagFraction” |
分数的输入数据样本从输入数据替换种植新树。默认值是1。 |
“成本” |
方阵 另外,
默认值是 如果 |
“SampleWithReplacement” |
“上” 与替换或样本“关闭” 样品没有更换。如果你不回样品,你需要设置“InBagFraction” 值小于1。默认是“上” 。 |
“OOBPrediction” |
“上” 存储信息的观察是什么袋子的每棵树。可以使用此信息oobPrediction 计算预测类每棵树的概率。默认是“关闭” 。 |
“OOBPredictorImportance” |
“上” 存储out-of-bag功能重要性的估计。默认是“关闭” 。指定“上” 还设置了“OOBPrediction” 价值“上” 。如果你的目标分析预测的重要性,然后指定“PredictorSelection”、“弯曲” 或“PredictorSelection”、“interaction-curvature” 。更多细节,请参阅fitctree 或fitrtree 。 |
“方法” |
要么“分类” 或“回归” 。回归需要一个数字Y 。 |
“NumPredictorsToSample” |
随机变量选择的决定。默认的变量数量的平方根是分类和回归的变量数量的三分之一。有效的值“所有” 或者一个正整数。但任何有效设置这个参数值“所有” 调用Breiman随机森林算法[1]。 |
“NumPrint” |
培训的循环次数(种植树木)之后TreeBagger 显示诊断消息显示培训进展。默认是没有诊断消息。 |
“MinLeafSize” |
最小数量的观察/树叶。默认是1 5分类和回归。 |
“选项” |
结构,指定选项控制计算当决策树的整体增长。一个选项要求计算决策树在多个引导复制使用多个处理器,如果并行计算工具箱™是可用的。两个选项指定要使用的随机数流在选择引导复制。您可以创建和调用这个论点
|
“之前” |
每个类的先验概率。指定的:
如果你设置的值 如果 |
“PredictorNames” |
预测变量名称,指定为逗号分隔组成的
|
“CategoricalPredictors” |
分类预测列表,指定为逗号分隔组成的
|
ChunkSize的 |
块大小,指定为逗号分隔组成的 请注意 此选项仅适用于使用 |
除了上面的可选参数,TreeBagger
接受这些可选fitctree
和fitrtree
参数。
金宝app支持fitctree 参数 |
金宝app支持fitrtree 参数 |
---|---|
AlgorithmForCategorical |
MaxNumSplits |
MaxNumCategories |
MergeLeaves |
MaxNumSplits |
PredictorSelection |
MergeLeaves |
修剪 |
PredictorSelection |
PruneCriterion |
修剪 |
QuadraticErrorTolerance |
PruneCriterion |
SplitCriterion |
SplitCriterion |
代理 |
代理 |
权重 |
“重量” |
例子
提示
避免大的估计误差方差out-of-bag通过设置一个更平衡的误分类代价矩阵或少倾斜先验概率向量。
的
树
的属性B
存储单元阵列B.NumTrees
CompactClassificationTree
或CompactRegressionTree
模型对象。文本或图形显示的树t
在单元阵列中,输入视图(B.Trees {t})
标准车往往选择分裂预测包含许多不同的值,例如,连续变量,在那些包含几个不同的值,例如,分类变量[4]。考虑指定曲率或交互测试如果真如下列:
如果有预测比其他预测的不同值相对较少,例如,如果预测数据集是异构的。
如果一个分析预测重要的是你的目标。
TreeBagger
商店预测估计的重要性OOBPermutedPredictorDeltaError
的属性Mdl
。
在指标选择的更多信息,见
PredictorSelection
分类树或PredictorSelection
回归树。
算法
选择功能
统计和机器学习工具箱™装袋和随机森林提供了三个对象:
对于细节的差异TreeBagger
和袋装集合体(ClassificationBaggedEnsemble
和RegressionBaggedEnsemble
),看比较TreeBagger和袋装的集合体。
引用
[1]Breiman, L。“随机森林。”机器学习45岁的5-32,2001页。
[2]Breiman, L。,J. Friedman, R. Olshen, and C. Stone.分类和回归树。波卡拉顿,FL: CRC出版社,1984年。
[3]Loh, W.Y.“回归树与公正的变量选择和交互检测。”Statistica中央研究院12卷,2002年,页361 - 386。
施[4]Loh, W.Y.和屈服强度。“分裂选择分类树的方法。”Statistica中央研究院7卷,1997年,页815 - 840。
[5]Meinshausen认为:“分位数回归森林。”机器学习研究杂志》上7卷,2006年,页983 - 999。