适合学习者的集成分类和回归
Fitysemble.
可以提升或包决策树学习者或判别分析分类器。该函数还可以训练KNN或判别分析分类器的随机子空间集成。
对于适合分类和回归集成的简单接口,请使用菲特森布尔
和fitrensemble
,分别。同时,菲特森布尔
和fitrensemble
提供贝叶斯优化选项。
NLearn
从几十个到几千个不等。通常,一个具有良好预测能力的集成需要几百到几千个较弱的学习者。然而,您不需要一次训练那么多周期的合奏。你可以从培养几十个学习者开始,检查合奏表演,然后,如果有必要的话,用它来训练更多的弱学习者的简历
对于分类问题,或者的简历
对于回归问题。
合奏表现取决于合奏设置和弱学习者的设置。也就是说,如果您使用默认参数指定弱学习器,那么集成的性能可能会很差。因此,与集成设置一样,使用模板调整弱学习器的参数,并选择最小化泛化误差的值,是一种良好的实践。
如果指定使用重新采用重新取样
,则对整个数据集进行重新采样是一种良好的实践。即使用默认设置1
为Fresample.
.
在分类问题中(即,类型
是“分类”
):
如果集合-聚合方法(方法
)是“包”
和:
误分类成本(成本
)是高度不平衡的,因此,对于包内样本,软件抽样从班级的独特观察,有很大的惩罚。
类先验概率(先前的
)是高度倾斜的,软件对具有很大先验概率的班级的独特观察进行抽样。
对于较小的样本量,这些组合可能会导致具有较大惩罚或先验概率的类的较低的袋外观测相对频率。因此,估计出的行李外误差变化很大,很难解释。为了避免较大的估计出袋误差方差,特别是对于小样本量,使用成本
或者是更少偏差的先验概率向量先前的
.
由于某些输入和输出参数的顺序对应于训练数据中的不同类,因此使用一会
名称-值对的论点。
要快速确定类顺序,请从训练数据中删除所有未分类(即缺少标签)的观察值,获取并显示所有不同类的数组,然后为其指定数组一会
.例如,假设响应变量(Y
)是标签的单元格数组。此代码指定变量中的类顺序类名
.
Ycat =分类(Y);一会=类别(Ycat)
分类
分配<未定义>
对非机密的观察和类别
不包括<未定义>
从它的输出。因此,如果将此代码用于包含标签的单元格数组或类似的代码用于类别数组,则不必删除缺少标签的观察结果以获得不同类的列表。要将从最低标签的标签指定为大多数表示的类顺序,然后快速确定类顺序(如上文出口),但在将列表传递给的之前按频率排列列表中的类一会
.在前面的例子中,这段代码指定了类从最低到最多的顺序classNamesLH
.
Ycat=分类(Y);类别名称=类别(Ycat);freq=countcats(Ycat);[~,idx]=排序(频率);classNamesLH=类名称(idx);
关于集合聚合算法的详细信息,请参见整体算法.
如果您指定方法
作为一个提升算法学习者
成为决策树,然后软件就会成长树桩默认情况下。一个决策桩是一个根节点连接到两个终端,叶节点。属性可以调整树的深度MaxNumSplits
,小叶大小
和MinParentSize
使用templateTree
.
Fitysemble.
对误分类代价大的类进行过抽样,对误分类代价小的类进行过抽样,产生袋内样本。因此,out- bag样本来自误分类代价大的类别的观察较少,而来自误分类代价小的类别的观察较多。如果您使用一个小数据集和一个高度倾斜的代价矩阵来训练一个分类集成,那么每个类的包外观察的数量可能会很低。因此,估计的包外误差可能有很大的方差,可能很难解释。对于具有较大先验概率的类,也会出现同样的现象。
对于RUSBoost集成聚合方法(方法
),名称-值对参数RatioToSmallest
指定每个类相对于表示的最低类的采样比例。例如,假设训练数据中有两个类:一个和B.一个有100个观察结果B有10个观察结果。另外,假设表示最低的类米
对训练数据的观察。
如果你设置了“比率最小”,2
,然后
=年代
*米
2*10
=20
.因此,Fitysemble.
使用课堂上的20个观察结果对每个学员进行培训一个以及20个课堂观察B.如果你设置了‘RatioToSmallest’,(2 - 2)
,则得到相同的结果。
如果你设置了‘RatioToSmallest’,(2,1)
,然后
=s1
*米
2*10
=20
和
=s2
*米
1 * 10.
=10
.因此,Fitysemble.
使用课堂上的20个观察结果对每个学员进行培训一个和10次课堂观察B.
对于决策树的集合,以及双核及以上系统,Fitysemble.
使用英特尔并行训练®线程构建块(TBB)。关于Intel TBB的详细介绍请参见https://software.intel.com/content/www/us/en/develop/tools/oneapi/components/onetbb.html.
[1] Breiman, L.《套袋预测》。机器学习.1996年第26卷,123-140页。
[2] 布莱曼,L.“随机森林。”机器学习. 第45卷,第5-32页,2001年。
[3] 一个更稳健的推进算法arXiv:0905.2138v1, 2009.
[4] 在线学习的决策理论推广及其在促进学习中的应用计算机与系统科学博士,第55卷,119-139页,1997。
[5]弗里德曼,J。“贪婪函数近似:梯度升压机。”统计数据,第29卷,第5期,第1189-1232页,2001。
[6]弗里德曼,J.,T. Hastie和R. Tibshirani。“添加性逻辑回归:提升的统计视图。”统计数据,第28卷,第2期,第337-407页,2000。
[7] 黑斯蒂、T、R.蒂布什拉尼和J.弗里德曼。统计学习的要素第2008年纽约Springer,2008年Springer。
[8] 构建决策森林的随机子空间方法关于模式分析和机器智能的IEEE交易, 1998年,第20卷第8期,第832-844页。
[9] 夏皮雷,R.E.,Y.Freund,P.Bartlett和W.S.Lee。“提高差距:投票方法有效性的新解释。”统计数据,第26卷,第5期,第1651-1686页,1998。
[10] 塞弗特,C.,T.霍什戈夫塔尔,J.赫尔斯和A.纳波利塔诺。“RUSBoost:在训练数据倾斜时提高分类性能。”第十九届国际模式识别会议,第1-42008页。
[11]温穆特,廖建军,陈志强。“完全正确的助推算法,使利润最大化。”Proc。23 int'l。Conf。在机器学习,ACM,纽约,PP。1001-1008,2006。
ClassificationEnsemble
|RegressionEnsemble
|ClassificationBaggedEnsemble
|回归释迦缩短
|分类分区集合
|RegressionPartitionedEnsemble
|templateDiscriminant
|模板
|templateTree