主要内容

。

treebaggerのの用による回帰木の释放聚合(バギング)

统计和机器学习工具箱™には,回帰木の举起聚合(バギング)をサポートするオブジェクトとし,treebaggerを使用して作成されるtreebaggerおよびfitrensembleを使用して作成されるRegressionBaggedEnsembleという2つのオブジェクトがあります。treebaggerRegressionBaggedEnsembleの違いについては,treebaggerとバギングアンサンブルの比较を参照してください。

この例では,treebaggerのみの机能を使示し示し示し示し示し示し示し。

205个の観测値,25个のの子,および1つの応答(保険リスクランク付け表す“「象征」)が含まれている,1985年の自动车输入のベースベースを使ます。最初最初15个変数は数量で,最后最后10个个分类です。シンボルシンボルインデックス,-3〜3の整です。

データセットを読み込み,それを予測子と応答の配列に分割します。

加载进口-85.Y = X(:,1);x = x(:,2:结束);ISCategorical = [零(15,1);(尺寸(x,2)-15,1)];%分类变量标志

バギングがランダム化されたデータ図を使用するため,その正確な結果は最初の乱数シードにより異なります。この例で結果を再生するには,ランダムストリーム設定を使用します。

RNG(1945年,'twister'

最适なリーフサイズの探索

回帰回帰の合,原则として叶のサイズを5に设定し,决定分类のための力特算数3分の1ををの手顺选択しし以以の手顺でますます以无手顺手顺でででサイズ无手顺手顺手顺ののサイズをなな叶ののサイズをを,回帰回帰によって取得ささたた均二乘误差を比较することにより,最适な叶のを确认しください。ooberror.は,mseと成长たツリーツリーbag计算し。后で袋予测をを取得ためにににOobpred.'在'にに设定しなけれなければなりませませ

[5 10 20 50 100];坳='rbcmy';数字为了i=1:length(leaf) b = TreeBagger(50,X,Y)'方法''r''Oobprediction''在'......'pationoricalpricictors',找到(isCategorical = = 1),......'minleafsize',叶(i));绘图(OobError(B),Col(i))持有结尾Xlabel(“已长成的树的数量”) ylabel ('均匀的错误')({传奇'5''10''20'“50”'100'},“位置”“东北”)举行

图中包含一个坐标轴。轴包含5个类型的线。这些物体代表5,10,20,50,100。

赤い曲線(葉のサイズ5)は最も低いMSE値です。

特徴量重要度の推定

実际にに応する合,数百本のでアンサンブルを长コードブロックでは。たとえばのツリーブロックではしを最适なしてい。を推定したので,100本のツリーでより大厦アンサンブルを成长せ,それそれ使用して特性の度を

b = treebagger(100,x,y,'方法''r'“OOBPredictorImportance”'在'......'pationoricalpricictors',找到(isCategorical = = 1),......'minleafsize'5);

〖morion〗再び,学院中に误りがなかったを确认します。

图绘图(OobError(b))xlabel(“已长成的树的数量”) ylabel (“袋子外平均方位错误”

图中包含一个坐标轴。轴包含类型线的对象。

予測機能は,些末な特徴量ではなく,より重要な特徴量に依存しなければなりません。このアイデアを使用して,特徴量の重要度を計測することができます。

特徴ごとの観测并べ替え,データにに値をます次にがどのますます。

各各力遇数间隔袋外袋観测値の并べ替え起因するmseのの増をプロットます。OOBPermutedPredictorDeltaError配列は,変数ごとに内ののので平等化,ツリーから取得した偏差でたたの増このしし大声ほどこの値大大ほど,数码はよりになり.0.7で任意に切り舍てることにより,4つの最も重要な特徴量选択できます。

图酒吧(B.oobpermutedPredictordordeltaError)Xlabel(的数字特征) ylabel ('禁止特征重要性'

图中包含一个坐标轴。坐标轴包含bar类型的对象。

idxvar =找到(b.OOBPermutedPredictorDeltaError > 0.7)
Idxvar =.1×4.1 2 16 19
idxcategorical = find(IsCateCorical(IDXVAR)== 1);

treebaggerOobindices.プロパティは,どの観测がどののbagのであるであるかを追迹ししプロパティのツリーにまとめられた习データの観测比率をすることができことができことができことができことができことができことができことができことができことができことができことができことができことができことができことができは约2/3の地点(1つのブートストラップ复制により选択され固固の観测のの)で开始,约10本のツリーの地点0に下载ます。

FINBAG =零(1,B.NTREES);为了t = 1:b.ntree finbag(t)= sum(全部(〜b.oobindices(:,1:t),2));结尾finbag = finbag /尺寸(X,1);图绘制(finbag)包含(“已长成的树的数量”) ylabel (“袋内观测的分数”

图中包含一个坐标轴。轴包含类型线的对象。

特点数量数量をてツリーを成ささ

�特点量は,最初の2つが数,残り残り2つがです。

b5v = treebagger(100,x(:,idxvar),y,'方法''r'......“OOBPredictorImportance”'在''pationoricalpricictors'idxCategorical,......'minleafsize'5);图绘制(oobError (b5v))包含(“已长成的树的数量”) ylabel (“袋子外平均方位错误”

图中包含一个坐标轴。轴包含类型线的对象。

图酒吧(b5v.OOBPermutedPredictorDeltaError)包含('特征索引') ylabel ('禁止特征重要性'

图中包含一个坐标轴。坐标轴包含bar类型的对象。

この最強の4つの特徴量にはフルセットと同じMSEがあり,縮小したセットで学習を行ったアンサンブルはこれらの特徴量を互いに対して同じようにランク付けします。数を絞り込んだセットから特徴1および2を削除すると,アルゴリズムの予測力が大幅に減少しない可能性もあります。

外れ値の探索

学习データ内のの値値を见つけるは,填充填充をを用して,近接行列をします。

B5V = Fillproximities(B5V);

このこのでは,标本全全に対する均减算値,この测定値が正规さされれれれれれれれれささされれれれれれれ标标れれされれれ标标れささされれさ标さささされ标标标。

图直方图(b5v.outliermeasure)xlabel('异常衡量') ylabel ('观察数'

图中包含一个坐标轴。坐标轴包含一个直方图类型的对象。

データデータ内のクラスタークラスターを発见

多重行为ににと,観测の可なを,観测の可なクラスターしことができことができことができことができことができことができことができことができことができ。mdsprox.メソッドは,计算近接行列ためにスケーリングされたと固固を返します。颜色名前と値のペアの引数でこのメソッドを実行すると,スケーリングされた2つの座標の散布図が作成されます。

图(8)[~,e] = mdsProx(b5v,“颜色”“K”);Xlabel('第一次缩放坐标') ylabel (“第二个比例协调”

图中包含一个坐标轴。坐标轴包含一个散点类型的对象。

最初の20个の固値をプロットすること,スケーリングした轴相対相対的な重要性评価します。

图栏(E(1:20))Xlabel('缩放坐标索引') ylabel ('特征值'

图中包含一个坐标轴。坐标轴包含bar类型的对象。

外来使用するためにアンサンブルアンサンブル成を保存する

学习したたををし未観测データのを予测する场は,ディスクにアンサンブルを格式し,后でそれをますしout-bag-of-with-of-of-with of-with-of-porthの再利用を行わない場合は、アンサンブル オブジェクト自体を格納する必要がありません。その場合は、アンサンブルのコンパクトなバージョンを保存するだけで十分です。以下のように、アンサンブルからコンパクトなオブジェクトを抽出します。

c =紧凑(b5v)
C = CompactTreeBagger合奏与100袋决策树:方法:回归NumPredictors:4属性,方法

生成されるCompactTreeBagger.モデルは*。垫ファイルに保存できます。

参考

|||||

关键词トピック