教師あり学習のワークフローとアルゴリズム- MATLAB和Sim金宝appulink MathWorks日本

教師あり学習のワ，クフロ，とアルゴリズム

教師あり学習とは

教師あり機械学習の目的は,不確定要素が存在する状況で証拠に基づいて予測を行うモデルを構築することです。適応アルゴリズムでデタのパタンを識別するにれて，コンピュタは観測から“学習”します。観測値の数が増えると，コンピュ，タ，の予測性能が向上します。

具体的には,教師あり学習アルゴリズムでは,既知の入力データのセットとそのデータに対する既知の応答(出力)を使用して,新しいデータに対する応答を適切に予測するようにモデルを"学習"させます。

たとえば，誰かが1年以内に心臓発作を起こすかどうかを予測するとします。年齢，体重，身長，血圧など，過去の患者に関する一連のデ，タを利用できます。デタを測定してから1年以内に過去の患者に心臓発作が起こったかどうかは既知の情報です。したがって,問題は既存のすべてのデータを結びつけて,ある人が1年以内に心臓発作を起こすかどうかを予測できるモデルを作成することになります。

入力デ，タ全体は，異種混合成分から構成される行列と見なすことができます。この行列の行は"観測値"、"例"または“蓉城ンスタンス”と呼ばれ、それぞれに被験者(この例では患者)にいての一連の測定値が格納されます。この行列の列は"予測子"、"属性"または"特徴量"と呼ばれ，それぞれは各被験者に対する測定値(この例では年齢，体重，身長など)を表す変数です。応答デ，タは、入力データ内の対応する観測値 (患者が心臓発作を起こしたかどうか) の出力が、各行に格納されている列ベクトルと見なすことができます。教師あり学習モデルを"近似"または"学習"させるには，適切なアルゴリズムを選択し，入力と応答デ，タを渡します。

教師あり学習は，分類および回帰という2のカテゴリに大別されます。

"分類"では，有限個のクラスの集合からクラス(または“ラベル”)を観測値に割り当てることが目標です。まり，応答はカテゴリカル変数です。応用例には，スパムフィルタ，広告推奨システム，メ，ジと音声の認識などがあります。ある患者が1年以内に心臓発作を起こすかどうかを予測することは分類問題であり，可能なクラスは真正的と假です。通常，分類アルゴリズムはノミナルな応答値に適用されます。ただし、一部のアルゴリズムは順序クラスに対応できます(fitcecocを参照してください)。
"回帰"では，観測値にいて連続的な測定値を予測することが目標です。まり，応答変数は実数です。応用例には，株価，エネルギ，消費，疾患の発生に関する予測などがあります。

统计和机器学习工具箱™の教師あり学習機能は,効率的なオブジェクトフレームワークから構成されています。さまざまなアルゴリズムの学習,モデルの結合によるアンサンブルの作成,モデルの性能の評価,交差検証,および新しいデータに対する応答の予測を効率的に行うことができます。

教師あり学習のステップ

统计和机器学习工具箱には,教師あり学習に利用できるアルゴリズムが数多く用意されていますが,ほとんどの場合,予測モデルの取得には同じ基本的なワークフローを使用します。(アンサンブル学習の手順の詳しい説明は，アンサンブル学習のフレ，ムワ，クを参照してください)。教師あり学習の手順は次のとおりです。

デ，タの準備

どの教師あり学習手法でも，ここで通常Xと表記されている入力デ，タ行列から開始されます。Xの各行が，1の観測値を表します。Xの各列が，1の変数または予測子を表します。Xに存在する南値で欠損値を表します。统计和机器学习工具箱の教師あり学習アルゴリズムは，南値を処理できますが，その値を無視するか，または南値を含む行を無視するかのどらかになります。

応答デ，タYには，さまざまなデ，タ型を使用できます。Yの各要素はXの対応する行に対する応答を表します。Yデ，タが欠落している観測値は無視されます。

回帰の場合，YはXの行数と同じ数の要素をも数値ベクトルでなければなりません。

分類の場合，Yには，次の表に示す任意のデ，タ型を使用できます。この表では，欠損値を表現する方法も示しています。

デタ型	欠損値
数値ベクトル	`南`
分类ベクトル	`<定义>`
文字配列	空白行
字符串配列	`< >失踪`または`＂＂`
文字ベクトルのcell配列	`”`
逻辑ベクトル	(表現できません)

アルゴリズムの選択

特性の異なるアルゴリズムには，それぞれ次のようなトレ，ドオフが存在します。

学習の速度
メモリ使用量
新規デ，タに関する予測精度
アルゴリズムによる予測の背景理解の容易さを表す，透明性または解釈可能性

アルゴリズムの詳細は，分類アルゴリズムの特性で説明します。アンサンブルアルゴリズムの詳細は，適用するアンサンブル集約法の選択で詳しく説明します。

モデルの近似

使用する近似関数は，選択したアルゴリズムによって異なります。

アルゴリズム	近似関数
分類木	`fitctree`
回帰木	`fitrtree`
判別分析 (分類)	`fitcdiscr`
K最近傍(分類)	`fitcknn`
単純ベ电子邮箱ズ(分類)	`fitcnb`
分類用のサポ，トベクタ，マシン(svm)	`fitcsvm`
回帰用の支持向量机	`fitrsvm`
支持向量机または他の分類器向けのマルチクラスモデル	`fitcecoc`
アンサンブル分類	`fitcensemble`
アンサンブル回帰	`fitrensemble`
アンサンブル分類木またはアンサンブル回帰木(ランダムフォレスト[1]など)	`TreeBagger`

これらのアルゴリズムの比較にいては，分類アルゴリズムの特性を参照してください。

検証法の選択

近似した結果のモデルの精度を検査するには，主に次の3の手法があります。

再代入誤差を調べます。以下の例を参照してください。
交差検証誤差を検査します。以下の例を参照してください。
バギングされた決定木のout-of-bag誤差を検査します。以下の例を参照してください。

近似の検証とモデルの最終調整

モデルを検証した後で,精度や速度,メモリ使用率を向上させるために,パラメーターを変更したい場合があります。

精度の高いモデルが得られるように，近似パラメ，タ，を変更します。以下の例を参照してください。
サズの小さいモデルが得られるように，近似パラメタを変更します。その結果，モデルの精度が向上する場合もあります。以下の例を参照してください。
別のアルゴリズムを試します。以下の説明を参照してください。
- 分類アルゴリズムの特性
- 適用するアンサンブル集約法の選択

いずれかのタesc escプのモデルで満足のいく結果が得られたら，適切な関数紧凑的(分類木用の紧凑的，回帰木用の紧凑的，判別分析用の紧凑的，単純ベescズ用の紧凑的，支持向量机用の紧凑的， ecocモデル用の紧凑的，アンサンブル分類用の紧凑的およびアンサンブル回帰用の紧凑的)を使用してトリミングします。紧凑的は予測に必要ない他のプロパティ(決定木の枝刈り情報など)と学習データをモデルから削除するので,メモリ使用量が少なくなります。kNN分類モデルではラベルを予測するためにすべての学習デ，タが必要なので，ClassificationKNNモデルのサ@ @ズを小さくすることはできません。

近似モデルを使用した予測

分類または回帰の応答値を予測するには，ほとんどの近似モデルで预测メソッドを使用します。

ypredict = predict(obj,Xnew)

objは，近似させたモデルまたはコンパクトモデルです。
Xnewは，新しい入力デ，タです。
Ypredictedは予測応答値であり，分類または回帰のどらかになります。

分類アルゴリズムの特性

以下の表では，さまざまな教師あり学習アルゴリズムの主な特性を示しています。特定のケ，スでは，リストされたものとは異なる特性を示す可能性があります。はじめにアルゴリズムを選択するときの指針として使用してください。速度，メモリ使用量，柔軟性および解釈可能性に関するトレ，ドオフに基づいて判断してください。

ヒント

高速で解釈が容易なので，はじめは決定木または判別分析を試してください。応答を予測するにはモデルの精度が不十分な場合は，柔軟性が高い他の分類器を試してください。

柔軟性の制御にいては，各分類器のタプの詳細を参照してください。過適合を回避するには，十分な精度が得られる柔軟性が低いモデルを探してください。

分類器	マルチクラスのサポ，ト	カテゴリカル予測子のサポ，ト	予測速度	メモリ使用量	解釈可能性
決定木- - - - - -`fitctree`	あり	あり	高	小	容易
判別分析―`fitcdiscr`	あり	なし	高	線形の場合は小，二次の場合は大	容易
支持向量机―`fitcsvm`	なし。 `fitcecoc`を使用して複数のバesc esc分類器を結合	あり	線形の場合は中。他の場合は低	線形の場合は中。他のすべて:マルチクラスの場合は中，バreeナリの場合は大	線形支持向量机の場合は容易。他のすべてのカネルタプの場合は困難
単純ベ@ @ズ―`fitcnb`	あり	あり	単純な分布の場合は中。カ，ネル分布または高次元デ，タの場合は低	単純な分布の場合は小。カ，ネル分布または高次元デ，タの場合は中	容易
最近傍―`fitcknn`	あり	あり	3次元の場合は低。他の場合は中	中	困難
アンサンブル- - - - - -`fitcensemble`および`fitrensemble`	あり	あり	アルゴリズムの選択によって高から中	アルゴリズムの選択によって低から高	困難

この表の結果は，多くのデ，タセットの分析に基づいています。調査に使用したデータセットには,最大で7000個の観測値,80個の予測子および50個のクラスが含まれています。以下のリストで，表の用語を定義します。

速度:

高- 0.01秒
中- 1秒
低- 100秒

メモリ

小- 1mb
中- 4mb
大- 100mb

メモ

この表は，一般的な指針を示しています。デ，タとマシンの速度によって，結果は異なります。

カテゴリカル予測子のサポ，ト

次の表に，各分類器の予測子のデ，タ型サポ，トを示します。

分類器	すべての予測子が数値	すべての予測子が绝对的	一部が分类，一部が数値
決定木	あり	あり	あり
判別分析	あり	なし	なし
支持向量机	あり	あり	あり
単純ベ@ @ズ	あり	あり	あり
最近傍点	ユ，クリッド距離のみ	ハミング距離のみ	なし
アンサンブル	あり	あり。ただし，判別分析分類器の部分空間アンサンブルは除く	あり。ただし，部分空間アンサンブルは除く