特徴選択の紹介- MATLAB & S金宝appimulink - MathWorks日本 - 金宝app,下载188bet金宝搏,金宝搏官方网站

特徴選択の紹介

このトピックでは,特徴選択アルゴリズムの基本と,统计和机器学习工具箱™で利用できる特徴選択関数について説明します。

特徴選択アルゴリズム

"特徴選択"では,測定した特徴(予測子変数)のサブセットのみを選択してモデルを作成することによりデータの次元を削減します。特徴選択アルゴリズムは、必要な、もしくは除外すべき特徴量、サブセットのサイズなどの制約のもとで、測定された応答を最適にモデル化する予測子のサブセットを探索します。特徴選択の主なメリットは、予測性能を改善し、より高速で費用対効果の高い予測子を提供し、データ生成プロセス[1]の理解を深められることです。使用する特徴量の数が多すぎると,すべての特徴量が関連性を持ち応答変数に関する情報を含んでいたとしても,予測性能が低下する場合があります。

特徴選択アルゴリズムは次の3の種類に分けることができます。

フィルタタプ特徴選択——フィルタータイプ特徴選択アルゴリズムは,特徴量の分散や特徴量の応答に対する関連度といった特徴量の特性によって特徴量の重要度を測定します。データの前処理ステップの一部として重要な特徴量を選択し,選択した特徴量を使用してモデルを学習させます。そのため，フィルタ，タ，プ特徴選択は学習アルゴリズムとは無相関です。
ラッパタプ特徴選択——ラッパータイプ特徴選択アルゴリズムは,特徴量のサブセットを使用して学習を開始し,その後に選択基準を使用して特徴量を追加または削除します。選択基準は，特徴量を追加または削除することによるモデル性能の変化を直接測定します。アルゴリズムは，停止条件が達成されるまで学習とモデルの改善を繰り返します。
組み込み型特徴選択-組み込み型特徴選択アルゴリズムは、モデルの学習プロセスの一部として特徴量の重要度を学習します。一度モデルを学習させると，学習済みモデルの中に特徴量の重要度が得られます。この種のアルゴリズムでは，特定の学習プロセスに対してうまく機能する特徴量が選択されます。

さらに,アルゴリズムが特徴量を逐次にランク付けするかどうかによって,特徴選択アルゴリズムを分類できます。最小冗余最大相关性(MRMR)アルゴリズムとステップワ@ @ズ回帰は、逐次特徴選択アルゴリズムの 2 つの例です。詳細については、逐次特徴選択を参照してください。

部分依存プロット(PDP)および個別条件付き期待値(ICE)プロットを作成することにより,予測子変数の重要度を視覚的に比較できます。詳細にいては，plotPartialDependenceを参照してください。

分類問題の場合,特徴量を選択した後,2つのモデル(たとえば,完全なモデルと,予測子のサブセットを使用して学習したモデル)を学習させ,関数compareHoldout、testcholdout，またはtestckfoldを使用して精度を比較することができます。

元々の特徴量とその単位が重要であり,モデリングの目標が影響力のあるサブセットの特定である場合,特徴選択は特徴変換よりも適切です。カテゴリカル特徴量が存在し，数値への変換が不適切な場合，特徴選択は次元削減の主要な方法になります。

特徴選択関数

统计和机器学习工具箱には,特徴選択のために複数の関数が用意されています。対象の問題と特徴量のデ，タ型に基づき，適切な特徴選択関数を選択してください。

フィルタタプ特徴選択

関数	サポ，トされる問題	サポ，トされるデ，タ型	説明
`fscchi2`	分類	分类特徴量および連続的特徴量	個々のカイ二乗検定を使用して各予測子変数が応答変数から独立しているかどうかを調べた後,カイ二乗検定統計量のp値を使用して特徴量をランク付けします。例にいては，関数`fscchi2`のリファレンスペ，ジを参照してください。
`fscmrmr`	分類	分类特徴量および連続的特徴量	最小冗余最大相关性(MRMR)アルゴリズムを使用して逐次的に特徴量をランク付けします。例にいては，関数`fscmrmr`のリファレンスペ，ジを参照してください。
`fscnca`＊	分類	連続的特徴量	近傍成分分析(nca)を対角的に適用することにより，特徴量の重みを特定します。これは,観測値間のペアワイズ距離を使用して応答を予測する距離ベースの教師ありモデルにおいて特徴量の重要度を推定するのに最適なアルゴリズムです。詳細にいては，関数`fscnca`のリファレンスペ，ジと以下のトピックを参照してください。近傍成分分析(nca)特徴選択分類にncaを使用して特徴量を判別するための正則化パラメ，タ，の調整
`fsrftest`	回帰	分类特徴量および連続的特徴量	F検定を使用して各予測子の重要度を個別に調べた後,F検定統計量のp値を使用して特徴量をランク付けします。各F検定は,予測子変数値でグループ化された応答値が,平均が同じである複数の母集団から抽出されたという仮説を,母集団の平均はすべて同じではないという対立仮説に対して検定します。例にいては，関数`fsrftest`のリファレンスペ，ジを参照してください。
`fsrnca`＊	回帰	連続的特徴量	近傍成分分析(nca)を対角的に適用することにより，特徴量の重みを特定します。これは,観測値間のペアワイズ距離を使用して応答を予測する距離ベースの教師ありモデルにおいて特徴量の重要度を推定するのに最適なアルゴリズムです。詳細にいては，関数`fsrnca`のリファレンスペ，ジと以下のトピックを参照してください。近傍成分分析(nca)特徴選択回帰にncaを使用するロバスト特徴選択
`fsulaplacian`	教師なし学習	連続的特徴量	ラプラシアンスコアを使用して特徴量をランク付けします。例にいては，関数`fsulaplacian`のリファレンスペ，ジを参照してください。
`relieff`	分類および回帰	すべて分类またはすべて連続的な特徴量	分類にはReliefFアルゴリズム，回帰にはRReliefFアルゴリズムを使用して特徴量をランク付けします。これは,観測値間のペアワイズ距離を使用して応答を予測する距離ベースの教師ありモデルにおいて特徴量の重要度を推定するのに最適なアルゴリズムです。例にいては，関数`relieff`のリファレンスペ，ジを参照してください。
`sequentialfs`	分類および回帰	すべて分类またはすべて連続的な特徴量	カスタム基準を使用して逐次的に特徴量を選択します。デ，タの特性を測定して特徴量を選択する関数を定義して，関数ハンドルを関数`sequentialfs`に受け渡します。名前と値のペアの引数`“方向”`を使用して，逐次前方選択または逐次後方選択を指定できます。`sequentialfs`は交差検証を使用して基準を評価します。

＊fscncaとfsrncaは，組み込み型特徴選択関数とみなすこともできます。これらは，学習済みモデルオブジェクトを返し，オブジェクト関数预测および损失を使用できるためです。しかし,通常,これらのオブジェクト関数はアルゴリズムの正則化パラメーターを調整するために使用されます。関数fscncaまたはfsrncaでデータ前処理ステップの一部として特徴量を選択した後,問題に別の分類または回帰アルゴリズムを適用することができます。

ラッパタプ特徴選択

関数サポ，トされる問題サポ，トされるデ，タ型説明

関数	サポ，トされる問題	サポ，トされるデ，タ型	説明
`sequentialfs`	分類および回帰	すべて分类またはすべて連続的な特徴量	カスタム基準を使用して逐次的に特徴量を選択します。教師あり学習アルゴリズムを実装する関数または学習アルゴリズムの性能を測定する関数を定義し,関数ハンドルを関数`sequentialfs`に受け渡します。名前と値のペアの引数`“方向”`を使用して，逐次前方選択または逐次後方選択を指定できます。`sequentialfs`は交差検証を使用して基準を評価します。例にいては，関数`sequentialfs`のリファレンスペ，ジと以下のトピックを参照してください。比較予測力による特徴量のサブセットの選択高次元のデ，タを分類する特徴量の選択

sequentialfs

分類および回帰

すべて分类またはすべて連続的な特徴量

カスタム基準を使用して逐次的に特徴量を選択します。教師あり学習アルゴリズムを実装する関数または学習アルゴリズムの性能を測定する関数を定義し,関数ハンドルを関数sequentialfsに受け渡します。名前と値のペアの引数“方向”を使用して，逐次前方選択または逐次後方選択を指定できます。sequentialfsは交差検証を使用して基準を評価します。

例にいては，関数sequentialfsのリファレンスペ，ジと以下のトピックを参照してください。

組み込み型特徴選択

関数	サポ，トされる問題	サポ，トされるデ，タ型	説明
`ClassificationDiscriminant`モデルオブジェクトの`DeltaPredictor`プロパティ	線形判別分析による分類	連続的特徴量	`fitcdiscr`を使用して線形判別分析分類器を作成します。`ClassificationDiscriminant`として返される学習済み分類器の`DeltaPredictor`プロパティには，係数の大きさが保存されています。この値は`DeltaPredictor`で予測子の重要度の尺度として使用できます。この分類器は，2ガンマとデルタを使用して冗長な予測子を特定および削除します。これらのパラメ，タ，の適切な値は，関数`cvshrink`または名前と値のペアの引数`“OptimizeHyperparameters”`を使用して取得できます。例にいては，以下のトピックを参照してください。判別分析分類器の正則化判別分析モデルの最適化
`fitcecoc`と`templateLinear`	高次元デ，タのマルチクラス学習の線形分類	連続的特徴量	`fitcecoc`と,`templateLinear`で定義された線形バesc escナリ学習器を使用して，線形分類モデルに学習をさせます。套索正則化を使用するには，`templatelinear`の`“正规化”`を`“套索”`に指定します。たとえば，交差検証の使用による適切な套索ペナルティの特定を参照してください。この例は，`kfoldLoss`を使用して異なる強度値でモデルを評価することにより,適した套索ペナルティの強度を決定します。`kfoldEdge`、`kfoldMargin`、`边缘`、`损失`，または`保证金`を使用してモデルを評価することもできます。
`fitclinear`	高次元デタのバナリ学習の線形分類	連続的特徴量	`fitclinear`を使用して線形分類モデルを学習させます。套索正則化を使用するには，`fitclinear`の`“正规化”`を`“套索”`に指定します。たとえば，交差検証aucの使用による適切な套索ペナルティの特定を参照してください。この例は，AUC の値を使用して異なる強度値でモデルを評価することにより、適した LASSO ペナルティの強度を決定します。`kfoldPredict`を使用して交差検証事後クラス確率を計算し，`perfcurve`を使用してaucの値を計算します。`kfoldEdge`、`kfoldLoss`、`kfoldMargin`、`边缘`、`损失`、`保证金`，または`预测`を使用してモデルを評価することもできます。
`fitrgp`	回帰	分类特徴量および連続的特徴量	`fitrgp`を使用してガウス過程回帰(gpr)モデルを学習させます。関連度自動決定(ard)を使用するには，名前と値のペアの引数`“KernelFunction”`を設定します。利用可能なオプションは`“ardsquaredexponential”`、`“ardexponential”`、`“ardmatern32”`、`“ardmatern52”`，および`“ardrationalquadratic”`です。`KernelInformation`プロパティに格納された負の学習済み特性長スケ，ルの指数を使用して，予測子の重みを求めます。例にいては，以下のトピックを参照してください。 LBFGS最適化の初期ステップサescズの指定 Ncaおよびard特徴選択の比較
`fitrlinear`	高次元デ，タの線形回帰	連続的特徴量	`fitrlinear`を使用して線形回帰モデルを学習させます。套索正則化を使用するには，`fitrlinear`の`“正规化”`を`“套索”`に指定します。例にいては，以下のトピックを参照してください。回帰損失の使用による適切な套索ペナルティの特定交差検証の使用による適切な套索ペナルティの特定
`套索`	線形回帰	連続的特徴量	`套索`を使用して套索の正則化で線形回帰モデルを学習させます。名前と値のペアの引数`“α”`を使用してリッジ最適化に対する套索最適化の重みを指定できます。例にいては，関数`套索`のリファレンスペ，ジと以下のトピックを参照してください。套索正則化交差検証によるLASSOおよび弹性网套索および並列計算によるワ▪ドデ▪タ
`lassoglm`	一般化線形回帰	連続的特徴量	`lassoglm`を使用して套索の正則化で一般化線形回帰モデルを学習させます。名前と値のペアの引数`“α”`を使用してリッジ最適化に対する套索最適化の重みを指定できます。詳細にいては，関数`lassoglm`のリファレンスペ，ジと以下のトピックを参照してください。一般化線形モデルの套索正則化ポアソン回帰の正則化ロジスティック回帰の正則化並列化によるワ▪▪ドデ▪▪タの正則化
`ClassificationBaggedEnsemble`の`oobPermutedPredictorImportance`**	バギングされた決定木(ランダムフォレストなど)のアンサンブルによる分類	分类特徴量および連続的特徴量	`fitcensemble`を使用し，`“方法”`を`“包”`に指定することで，木学習器でバギングされたアンサンブル分類を学習させます。その後，`oobPermutedPredictorImportance`を使用して並べ替えによるout-of-bag予測子の重要度の推定を計算します。この関数は，応答の予測においてモデル内の予測子変数がどの程度影響を与えるかを測ります。例にいては，関数のリファレンスペジとトピック`oobPermutedPredictorImportance`を参照してください。
`RegressionBaggedEnsemble`の`oobPermutedPredictorImportance`**	バギングされた決定木(ランダムフォレストなど)のアンサンブルによる回帰	分类特徴量および連続的特徴量	`fitrensemble`を使用し，`“方法”`を`“包”`に指定することで，木学習器でバギング回帰アンサンブルを学習させます。その後，`oobPermutedPredictorImportance`を使用して並べ替えによるout-of-bag予測子の重要度の推定を計算します。この関数は，応答の予測においてモデル内の予測子変数がどの程度影響を与えるかを測ります。例にいては，関数`oobPermutedPredictorImportance`のリファレンスペ，ジおよびランダムフォレストの予測子の選択を参照してください。
`ClassificationEnsemble`の`predictorImportance`**	決定木のアンサンブルによる分類	分类特徴量および連続的特徴量	`fitcensemble`を使用して，木学習器でアンサンブル分類を学習させます。その後，`predictorImportance`を使用して,すべての予測子について分割によるリスク変動を合計し,この合計を枝ノード数で除算することにより,アンサンブルの予測子の重要度の推定を計算します。例にいては，関数`predictorImportance`のリファレンスペ，ジを参照してください。
`ClassificationTree`の`predictorImportance`**	決定木による分類	分类特徴量および連続的特徴量	`fitctree`を使用して分類木を学習させます。その後，`predictorImportance`を使用して,すべての予測子について分割によるリスク変動を合計し,この合計を枝ノード数で除算することにより,木の予測子の重要度の推定を計算します。例にいては，関数`predictorImportance`のリファレンスペ，ジを参照してください。
`RegressionEnsemble`の`predictorImportance`**	決定木のアンサンブルによる回帰	分类特徴量および連続的特徴量	`fitrensemble`を使用して，木学習器でアンサンブル回帰を学習させます。その後，`predictorImportance`を使用して,すべての予測子について分割によるリスク変動を合計し,この合計を枝ノード数で除算することにより,アンサンブルの予測子の重要度の推定を計算します。例にいては，関数`predictorImportance`のリファレンスペ，ジを参照してください。
`RegressionTree`の`predictorImportance`**	決定木による回帰	分类特徴量および連続的特徴量	`fitrtree`を使用して回帰木を学習させます。その後，`predictorImportance`を使用して,すべての予測子について分割による平均二乗誤差(MSE)の変動を合計し,この合計を枝ノード数で除算することにより,木の予測子の重要度の推定を計算します。例にいては，関数`predictorImportance`のリファレンスペ，ジを参照してください。
`stepwiseglm`＊＊＊	一般化線形回帰	分类特徴量および連続的特徴量	`stepwiseglm`を使用して，ステップワ。あるいは，`fitglm`を使用して線形回帰モデルをあてはめた後，`一步`を使用してモデルを調整することもできます。ステップワ@ @ズ回帰は、応答変数の説明における各項の統計的な重要性に基づき、モデルから項を追加したり削除するための体系的な方法です。詳細にいては，関数`stepwiseglm`のリファレンスペ，ジと以下のトピックを参照してください。ステップワ@ @ズアルゴリズムを使って一般化された線形モデル一般化線形モデル一般化線形モデルのワクフロ
`stepwiselm`＊＊＊	線形回帰	分类特徴量および連続的特徴量	`stepwiselm`を使用して，ステップワ。あるいは，`fitlm`を使用して線形回帰モデルをあてはめた後，`一步`を使用してモデルを調整することもできます。ステップワ@ @ズ回帰は、応答変数の説明における各項の統計的な重要性に基づき、モデルから項を追加したり削除するための体系的な方法です。詳細にいては，関数`stepwiselm`のリファレンスペ，ジと以下のトピックを参照してください。ステップワ@ @ズ回帰交互作用の影響による線形回帰 T統計量を使用した回帰係数の有意性の評価

**木ベ，スのアルゴリズムでは，交互作用検定を使用して最適な分割予測子を選択するために，“PredictorSelection”を“interaction-curvature”に指定します。交互作用検定は，多くの無関係な変数が存在する状況下で重要な変数を特定するのに役立ます。また，多数の予測子が学習デタに含まれている場合，学習にいて“NumVariablesToSample”を“所有”に指定します。このようにしないと，重要度が過小評価されて一部の予測子が選択されない可能性があります。詳細にいては，fitctree、fitrtreeおよびtemplateTreeを参照してください。

＊＊＊stepwiseglmおよびstepwiselmは別の学習関数のラッパとして使用できないため，ラッパタプの関数ではありません。ただし，これら2プのアルゴリズムを使用して重要な特徴量を見。