适合学习者的集体分类和回归
fitensemble
可以提升或袋子决策树学习者或判别分析分类器。该功能还可以培训KNN或判别分析分类器的随机子空间集合。
对于适合分类和回归合作的更简单的接口,而是使用fitcensemble.
和fitrensemble.
, 分别。还,fitcensemble.
和fitrensemble.
提供贝叶斯优化选项。
NLearn
可能会因几十几到几千而异。通常,具有良好预测力的集合需要几百到几千弱的学习者。但是,您不必立即为这一循环训练合奏。您可以开始越来越几十几名学习者,检查集合性能,然后,如有必要,使用更多的学习者使用的简历
对于分类问题,或者的简历
为了回归问题。
合奏性能取决于集合设置和弱学习者的设置。也就是说,如果使用默认参数指定弱的学习者,则集合可以表现不佳。因此,与集合设置一样,使用模板调整弱学习者的参数是好的做法,并选择最小化泛化误差的值。
在分类问题(即,类型
是'分类'
):
如果集合-聚合方法(方法
)是'包'
和:
误分类成本(成本
)对于包装内样本,软件已经过度损失的阶级的独特观察,这是高度不平衡的。
类先验概率(事先的
)是高度倾斜的,软件对具有很大先验概率的班级的独特观察进行抽样。
对于较小的样本尺寸,这些组合可以导致来自具有较大惩罚或现有概率的袋子外观测的低相对频率。因此,估计的袋误差是高度变化的,并且可能难以解释。为避免大量估计的袋式误差差异,特别是对于小样本尺寸,请使用更平衡的错误分类成本矩阵成本
或使用较少的先前概率向量使用事先的
.
由于某些输入和输出参数的顺序对应于培训数据中的不同类,因此使用该课程指定类顺序是良好的做法一会
名称-值对的论点。
要快速确定类顺序,请从未分类的训练数据中删除所有观察(即,具有缺少标签),获取并显示所有不同类别的数组,然后指定数组一会
.例如,假设响应变量(Y
)是标签的细胞阵列。此代码指定变量中的类顺序Classnames.
.
Ycat =分类(Y);一会=类别(Ycat)
分类
分配<定义>
未分类的观察和类别
排除<定义>
从它的产出。因此,如果使用此代码用于标签的单元格或分类数组的类似代码,则您不必删除缺少标签的观察,以获取不同类的列表。要指定从最低表示的标签到最高表示的标签的类顺序,那么要快速确定类顺序(如前面的项目符号所示),但是在将列表传递给之前,要按频率排列列表中的类一会
.在前面的例子中,这段代码指定了类从最低到最多的顺序Classnameslh.
.
Ycat =分类(Y);ClassNames =类别(YCAT);FREQ = COUNTCATS(YCAT);[〜,IDX] =排序(频率);classnameslh = classNames(IDX);
关于集合聚合算法的详细信息,请参见合奏算法.
如果您指定方法
成为促进算法和学习者
决策树,然后软件增长树桩默认情况下。决策树桩是连接到两个终端,叶节点的一个根节点。您可以通过指定来调整树深度maxnumsplits.
,minleafsize.
, 和蛋白化
名称 - 值对参数使用Templatetree.
.
fitensemble
通过过采样的超采样产生内部样本,具有大的错误分类成本和具有小错误分类成本的欠采样类。因此,袋袋样品具有较少的分类成本和具有小错误分类成本的课程的观察的较少观察。如果您使用小数据集和高度倾斜的成本矩阵训练分类集合,那么每类的袋子外观测的数量可能很低。因此,估计的袋误差可能具有大的方差并且可能难以解释。对于具有大的概率的课程,可以发生同样的现象。
对于RUSBoost集成聚合方法(方法
),名称值对参数ratiotosmallest.
指定关于最低代表的类的每个类的采样比例。例如,假设培训数据中有两个类:一个和B.一个有100个观察和B有10个观察结果。另外,假设代表最低的类米
对训练数据的观察。
如果你设置'ratiotosmallest',2
, 然后
=年代
*米
2 * 10
=20.
.最后,fitensemble
使用来自课程的20个观察来列车一个和来自课程的20个观察B.如果你设置'ratiotosmallest',[2 2]
,则得到相同的结果。
如果你设置'ratiotosmallest',[2,1]
, 然后
=S1
*米
2 * 10
=20.
和
=S2
*米
1 * 10
=10.
.最后,fitensemble
使用来自课程的20个观察来列车一个和课程的10个观察B.
对于决策树的集合,以及双核及以上系统,fitensemble
使用英特尔并行化培训®线程构建块(TBB)。有关英特尔TBB的详细信息,请参阅https://software.intel.com/en-us/intel-tbb..
[1] Breiman,L。“袋装预测器。”机器学习.1996年第26卷,123-140页。
[2] Breiman,L。“随机森林。”机器学习.卷。45,pp。5-32,2001。
[3] Freund,Y。“更强大的提升算法。”ARXIV:0905.2138V1,2009年。
[4]弗氏,Y.和R. E. Schapire。“关于在线学习的决策概括和促进申请。”计算机与系统科学博士,第55卷,119-139页,1997。
[5] Friedman, J. <贪婪函数近似:梯度增压机>统计年鉴,卷。29,第5页,第5页,PP。1189-1232,2001。
Friedman, J., T. Hastie,和R. Tibshirani。加性逻辑回归:助推的统计学观点统计年鉴,卷。28,2,PP。337-407,2000。
[7] Hastie,T.,R. Tibshirani和J. Friedman。统计学习的要素section edition,施普林格,New York, 2008。
[8] HO,T.K。“构建决策林的随机子空间方法。”图案分析和机器智能的IEEE交易,卷。20,第8页,第8页,第832-844,1998。
[9] Schapire,R. E.,Y.Freund,P. Bartlett和W.S.李。“提高余量:投票方法有效性的新解释。”统计年鉴,卷。26,5,PP。1651-1686,1998。
Seiffert, C., T. Khoshgoftaar, J. Hulse和A. Napolitano。“RUSBoost:在训练数据有偏差时提高分类性能。”第十九届国际模式识别会议,pp.1-4,2008。
[11] Warmuth,M.,J. Liao和G. Ratsch。“完全纠正促进算法,最大化边缘。”Proc, 23日国际。Conf. on Machine Learning, ACM,纽约,页1001-1008,2006。
ClassificationBaggedensemble.
|分类素..
|分类分类型
|RegressionBaggedEnsemble
|回归
|回归分役部门
|模板异教徒
|templateknn.
|Templatetree.