主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

回帰TreeBaggerワークフローに対する並列処理の使用

この例では,以下の方法について説明します。

  • バギング回帰木のアンサンブルを使用して,特徴量の重要度を推定する。

  • 並列計算を使用して計算速度を向上させる。

1985年標本データはの車両輸入に関するデータベースで,205個の観測値,25個の予測子,および1つの応答として保険リスクランク付け(つまり”シンボル化”)が含まれています。最初の15個の変数は数値で,最後の10個は直言です。シンボルインデックスは,3 ~ 3の整数です。

標本データを読み込み,予測子の配列と応答の配列に分割します。

负载进口- 85;Y = X (: 1);X = X(:, 2:结束);

既定の数のワーカーを使用するように並列環境を設定します。この例を作成したコンピューターのコアは6つです。

mypool = parpool
使用“local”配置文件启动并行池(parpool)…connection to the parallel pool (number of workers: 6). mypool = ProcessPool with properties: Connected: true NumWorkers: 6 Cluster: local attachdfiles: {} AutoAddClientPath: true IdleTimeout: 30 minutes (30 minutes remaining) SpmdEnabled: true

並列処理を使用するようにオプションを設定します。

paroptions = statset (“UseParallel”,真正的);

リーフサイズ1および5000ツリーを並列で使用して特徴量の重要度を推定します。比較のため,関数の実行時間を測定します。

tic b = TreeBagger(5000,X,Y,“方法”“r”“OOBVarImp”“上”...“猫”16:25,“MinLeafSize”,1,“选项”, paroptions);toc
运行时间为9.873065秒。

時間を比較するため,同じ計算を逐次的に実行します。

tic b = TreeBagger(5000,X,Y,“方法”“r”“OOBVarImp”“上”...“猫”16:25,“MinLeafSize”1);toc
运行时间为28.092654秒。

この結果から,並列計算にかかる時間が逐次計算にかかる時間の数分の1であることがわかります。経過時間はオペレーティングシステムによって変化する可能性があることに注意してください。

参考

(并行计算工具箱)||

関連するトピック