templateEnsemble
アンサンブル学習テンプレ,ト
説明
例
入力引数
出力引数
ヒント
NLearn
は数十から数千までさまざまな数になります。通常,予測力が高いアンサンブルでは数百から数千の弱学習器が必要です。しかし,このような多数のサ。数十個の学習器の学習から開始してアンサンブルの性能を調査し,必要な場合は分類問題用の重新开始
または回帰問題用の重新开始
を使用して弱学習器の数を増やすことができます。アンサンブルの性能は,アンサンブルの設定と弱学習器の設定によって決まります。まり,既定のパラメーターを使用する弱学習器を指定すると、アンサンブルの性能が低下する可能性があります。このため、アンサンブルの設定と同じように、テンプレートを使用して弱学習器のパラメーターを調整し、汎化誤差が最小になる値を選択することをお勧めします。
重新取样
を使用してリサンプリングを指定する場合は,デ,タセット全体に対してのリサンプリングをお勧めします。まり,FResample
の既定設定である1
を使用します。分類問題の場合(;
类型
が“分类”
の場合)アンサンブル集約法(
方法
)が“包”
であり,誤分類コストが非常に不均衡である場合,在袋子の標本について,ペナルティが大きいクラスから一意な観測値がオーバーサンプリングされます。
クラスの事前確率の歪みが大きい場合,事前確率が大きいクラスから一意な観測値がオーバーサンプリングされます。
これらの組み合わせにより,標本サイズが小さい場合,ペナルティまたは事前確率が大きいクラスから抽出されるout-of-bag観測値の相対頻度が非常に低くなる可能性があります。この結果,out-of-bagの推定誤差の変動幅が非常に大きくなり,解釈が困難になる可能性があります。特に標本サイズが小さい場合に,out-of-bagの推定誤差の変動幅が大きくならないようにするには,近似関数の名前と値のペアの引数
成本
を使用して誤分類コスト行列をより平衡にするか,近似関数の名前と値のペアの引数之前
を使用して事前確率ベクトルの歪みを小さくします。一部の入力引数および出力引数の順序は学習データ内の各クラスに対応するので,近似関数の名前と値のペアの引数
一会
を使用してクラスの順序を指定することをお勧めします。クラスの順序を簡単に求めるには,未分類の(つまり欠損ラベルがある)学習データからすべての観測値を削除し,個別のクラスがすべて含まれている配列を取得および表示してから,その配列を
一会
に指定します。たとえば,応答変数 (Y
)がラベルのcell配列であるとします。次のコ,ドは,変数一会
でクラスの順序を指定します。Ycat =分类的(Y);classNames =类别(Ycat)
分类
は<定义>
を未分類観測値に割り当て,类别
は<定义>
を出力から除外します。したがって,このコードをラベルの细胞配列に対して使用するか,同様のコードを直言配列に対して使用すると,欠損ラベルがある観測値を削除しなくても各クラスのリストを取得できます。最小相当ラベルから最大相当ラベルの順になるように順序を指定するには,(前の項目のように)クラスの順序を簡単に求め,リスト内のクラスの順序を頻度順に変更してから,リストを
一会
に渡します。前の例に従うと,次のコ,ドは最小相当から最大相当の順にクラスの順序をclassNamesLH
で指定します。Ycat =分类的(Y);classNames =类别(Ycat);freq =计数猫(Ycat);[~,idx] = sort(freq);classNamesLH = classNames(idx);
アルゴリズム
アンサンブル集約アルゴリズムの詳細にいては,アンサンブルアルゴリズムを参照してください。
方法
がブ,スティングアルゴリズム,学习者
が決定木になるように指定した場合,既定では“切り株”が成長します。決定株は,2の終端ノド()。木の深さは,templateTree
を使用して名前と値のペアの引数MaxNumSplits
、MinLeafSize
およびMinParentSize
を指定することにより調整できます。在袋子の標本の生成では,誤分類コストが大きいクラスがオーバーサンプリングされ,誤分類コストが小さいクラスがアンダーサンプリングされます。その結果,out-of-bagの標本では,誤分類コストが大きいクラスの観測値は少なくなり,誤分類コストが小さいクラスの観測値は多くなります。小さなデータセットと歪みが大きいコスト行列を使用してアンサンブル分類を学習させる場合,クラスあたりのout-of-bagの観測値の数は非常に少なくなることがあります。そのため,推定されたout-of-bagの誤差の変動幅が非常に大きくなり,解釈が困難になる場合があります。事前確率が大きいクラスでも同じ現象が発生する場合があります。
アンサンブル集約法(
方法
)がRUSBoostである場合,名前と値のペアの引数RatioToSmallest
では最小相当クラスに関して各クラスのサンプリングの比率を指定します。たとえば,学習デ,タにA および B という 2 つのクラスがあるとします。A には 100 個の観測値、B には 10 個の観測値が含まれています。また、最小相当クラスでは米
個の観測値が学習デ,タに含まれているとします。“RatioToSmallest”,2
を設定した場合,
=年代
*米
2 * 10
=20.
になります。したがって,すべての学習器の学習では,クラスの20個の観測値とクラスBの20個の観測値が使用されます。‘RatioToSmallest’,(2 - 2)
を設定した場合も同じ結果になります。‘RatioToSmallest’,(2,1)
を設定した場合,
=s1
*米
2 * 10
=20.
および
=s2
*米
1 * 10
=10
になります。したがって,すべての学習器の学習では,クラスの20個の観測値とクラスBの10個の観測値が使用されます。
決定木のアンサンブルの場合とデュアルコア以上のシステムの場合,
fitcensemble
とfitrensemble
では英特尔®スレッディングビルディングブロック(tbb)を使用して学習を並列化します。英特尔TBBの詳細に化学键いては,https://www.intel.com/content/www/us/en/developer/tools/oneapi/onetbb.htmlを参照してください。
バ,ジョン履歴
R2014bで導入