このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。
分類および回帰のアンサンブル学習器の当てはめ
fitensemble
は,決定木学習器または判別分析分類器のブースティングまたはバギングを行うことができます。また,KNN のランダム部分空間アンサンブルまたは判別分析分類器に学習をさせることもできます。
よりシンプルなインターフェイスでアンサンブル分類およびアンサンブル回帰をあてはめるには,それぞれfitcensemble
およびfitrensemble
を代わりに使用します。また,fitcensemble
とfitrensemble
にはベイズ最適化のためのオプションもあります。
NLearn
は数十から数千までさまざまな数になります。通常,予測力が高いアンサンブルでは数百から数千の弱学習器が必要です。しかし,このような多数のサイクルの学習をアンサンブルが一度に行う必要はありません。数十個の学習器の学習から開始してアンサンブルの性能を調査し,必要な場合は分類問題用の的简历
または回帰問題用の的简历
を使用して弱学習器の数を増やすことができます。
アンサンブルの性能は、アンサンブルの設定と弱学習器の設定によって決まります。つまり、既定のパラメーターを使用する弱学習器を指定すると、アンサンブルの性能が低下する可能性があります。このため、アンサンブルの設定と同じように、テンプレートを使用して弱学習器のパラメーターを調整し、汎化誤差が最小になる値を選択することをお勧めします。
重新取样
を使用してリサンプリングを指定する場合は,データセット全体に対してのリサンプリングをお勧めします。つまり,FResample
の既定設定である1
を使用します。
分類問題の場合(つまり,类型
が“分类”
の場合)
アンサンブル集約法(方法
)が“包”
で、
誤分類コスト(费用
)が非常に不均衡である場合,在袋子の標本について,ペナルティが大きいクラスから一意な観測値がオーバーサンプリングされます。
クラスの事前確率(之前
)の歪みが大きい場合,事前確率が大きいクラスから一意な観測値がオーバーサンプリングされます。
これらの組み合わせにより,標本サイズが小さい場合,ペナルティまたは事前確率が大きいクラスから抽出されるout-of-bag観測値の相対頻度が低くなる可能性があります。この結果,out-of-bagの推定誤差の変動幅が非常に大きくなり,解釈が困難になる可能性があります。特に標本サイズが小さい場合に,out-of-bagの推定誤差の変動幅が大きくならないようにするには,费用
を使用して誤分類コスト行列をより平衡にするか,之前
を使用して事前確率ベクトルの歪みを小さくします。
一部の入力引数および出力引数の順序は学習データ内の各クラスに対応するので,名前と値のペアの引数一会
を使用してクラスの順序を指定することをお勧めします。
クラスの順序を簡単に求めるには,未分類の(つまり欠損ラベルがある)観測値を学習データからすべて削除し,異なるクラスがすべて含まれている配列を取得および表示してから,その配列を一会
に指定します。たとえば,応答変数 (Y
)がラベルの细胞配列であるとします。次のコードは,変数一会
でクラスの順序を指定します。
Ycat =分类(Y);一会=类别(Ycat)
分类
は<定义>
を未分類観測値に割り当て,类别
は<定义>
を出力から除外します。したがって、このコードをラベルの 单间牢房配列に対して使用するか、同様のコードを 明确的配列に対して使用すると、欠損ラベルがある観測値を削除しなくても各クラスのリストを取得できます。最小相当ラベルから最大相当ラベルの順になるようにクラスの順序を指定するには,(前の項目のように)クラスの順序を簡単に調べ,リスト内のクラスの順序を頻度順に変更してから,リストを一会
に渡します。前の例に従うと,次のコードは最小相当から最大相当の順にクラスの順序をclassNamesLH
で指定します。
Ycat =分类(Y);一会=类别(Ycat);频率= countcats (Ycat);[~, idx] =(频率)进行排序;classNamesLH =一会(idx);
アンサンブル集約アルゴリズムの詳細については,アンサンブルアルゴリズムを参照してください。
方法
がブースティングアルゴリズム,学习者
が決定木になるように指定した場合,既定では“切り株”が成長します。決定株は、2.つの終端ノード (葉ノード) に接続されている 1.つのルート ノードです。木の深さは、templateTree
を使用して名前と値のペアの引数最大数分裂
、MinLeafSize
およびMinParentSize
を指定することにより調整できます。
fitensemble
は誤分類コストが大きいクラスをオーバーサンプリングし,誤分類コストが小さいクラスをアンダーサンプリングして,袋中の標本を生成します。その結果,out-of-bagの標本では,誤分類コストが大きいクラスの観測値は少なくなり,誤分類コストが小さいクラスの観測値は多くなります。小さいデータセットと歪みが大きいコスト行列を使用してアンサンブル分類に学習をさせる場合,クラスあたりのout-of-bag観測値の数が少なくなる可能性があります。このため,out-of-bagの推定誤差の変動幅が非常に大きくなり,解釈が困難になる可能性があります。事前確率が大きいクラスでも同じ現象が発生する場合があります。
アンサンブル集約法(方法
)がRUSBoostである場合,名前と値のペアの引数比率最小
では最小相当クラスに関して各クラスのサンプリングの比率を指定します。たとえば,学習データにA および B という 2 つのクラスがあるとします。A には 100 個の観測値、B には 10 個の観測値が含まれています。また、最小相当クラスでは米
個の観測値が学習データに含まれているとします。
“RatioToSmallest”,2
を設定した場合,
=年代
*米
2 * 10
=20.
になります。したがって、fitensemble
はクラスの20個の観測値とクラスBの20個の観測値を使用して,すべての学習器に学習をさせます。‘RatioToSmallest’,(2 - 2)
を設定した場合も同じ結果になります。
‘RatioToSmallest’,(2,1)
を設定した場合,
=s1
*米
2 * 10
=20.
および
=s2
*米
1 * 10
=10
になります。したがって、fitensemble
はクラスの20個の観測値とクラスBの10個の観測値を使用して,すべての学習器に学習をさせます。
決定木のアンサンブルの場合とデュアルコア以上のシステムの場合,fitensemble
では英特尔®スレッディング ビルディング ブロック (待定)を使用して学習を並列化します。英特尔TBBについての詳細は、https://software.intel.com/en-us/intel-tbbを参照してください。
[1] Breiman, L.《套袋预测》。机器学习。1996年第26卷,123-140页。
[2] 《随机森林》,机器学习,第45卷,第5-32页,2001年。
[3] Freund, Y.“一个更健壮的助推算法。“v1 arXiv: 0905.2138, 2009。
[4] 《在线学习的决策理论推广及其在促进学习中的应用》,《计算机与系统科学杂志》,第55卷,第119-139页,1997年。
[5] Friedman, J. <贪婪函数近似:梯度增压机>《统计年鉴》,第29卷第5期,第1189-1232页,2001年。
Friedman, J., T. Hastie,和R. Tibshirani。加性逻辑回归:助推的统计学观点《统计年鉴》,第28卷第2期,第337-407页,2000年。
Hastie, T., R. Tibshirani, J. Friedman。统计学习的要素部分版,施普林格,纽约,2008。
[8] Ho,T.K.“构建决策森林的随机子空间方法”,《模式分析和机器智能IEEE学报》,第20卷,第8期,第832-844页,1998年。
Schapire r.e., Y. Freund, P. Bartlett和W.S. Lee。“扩大差额:对投票方法有效性的新解释。”《统计年鉴》,第26卷第5期,第1651-1686页,1998年。
Seiffert, C., T. Khoshgoftaar, J. Hulse和A. Napolitano。RUSBoost:在训练数据有偏差时提高分类性能。“第19届模式识别国际会议”,第1-4页,2008。
[11]温穆特,廖建军,陈志强。“完全正确的助推算法,使利润最大化。”Proc, 23日国际。机器学习大会,ACM,纽约,第1001-1008页,2006。
ClassificationEnsemble
|回归套
|ClassificationBaggedEnsemble
|RegressionBaggedEnsemble
|ClassificationPartitionedEnsemble
|RegressionPartitionedEnsemble
|templateDiscriminant
|templateKNN
|templateTree