モデルの作成と評価

特徴選択、特徴量エンジニアリング、モデル選択、ハイパーパラメーターの最適化、交差検証、残差診断、プロット

高品質の回帰モデルを構築するには、正しい特徴量 (予測子) の選択、ハイパーパラメーター (データへの当てはめを行わないモデルパラメーター) の調整、残差診断によるモデル仮定の評価を行うことが重要です。

ハイパーパラメーターの値の選択とモデルの交差検証を繰り返すことにより、ハイパーパラメーターを調整できます。このプロセスでは複数のモデルが生成されますが、推定された汎化誤差が最小になるものが最適なモデルである場合があります。たとえば、SVM モデルを調整するには、一連のボックス制約およびカーネルスケールを選択し、値の各ペアについてモデルを交差検証して、10 分割交差検証の平均二乗誤差の推定値を比較します。

回帰モデルに学習させる前に新しい特徴量を設計するには、genrfeaturesを使用します。

回帰モデルの構築と評価を対話的に行うには、回帰学習器アプリを使用します。

調整されたハイパーパラメーターでモデルを自動的に選択するには、fitrautoを使用します。この関数は、回帰モデルのタイプの選択をさまざまなハイパーパラメーターの値で試し、適切に実行されることが期待される最終モデルを返します。データに最適な回帰モデルのタイプがわからない場合は、fitrautoを使用します。

Statistics and Machine Learning Toolbox™ の一部のノンパラメトリック回帰関数では、ベイズ最適化、グリッド探索またはランダム探索による自動的なハイパーパラメーター調整が提供されます。ベイズ最適化を実装するための main 関数であるbayesoptは、他の多くの用途にも応用が利きます。詳細は、ベイズ最適化のワークフローを参照してください。

回帰モデルを解釈するために、lime、shapleyおよびplotPartialDependenceを使用できます。

アプリ

回帰学習器

教師あり機械学習を使用して、データを予測するように回帰モデルに学習をさせる

関数

すべて展開する

特徴選択

`fsrftest`	F 検定を使用した回帰のための一変量の特徴量ランク付け
`fsrnca`	回帰に近傍成分分析を使用する特徴選択
`oobPermutedPredictorImportance`	回帰木のランダムフォレストに対する out-of-bag 予測子の並べ替えによる予測子の重要度の推定
`partialDependence`	部分従属の計算
`plotPartialDependence`	部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成
`predictorImportance`	回帰木の予測子の重要度の推定
`predictorImportance`	回帰アンサンブルの予測子の重要度の推定
`relieff`	ReliefF または RReliefF アルゴリズムを使用した予測子の重要度のランク付け
`sequentialfs`	カスタム基準を使用した逐次特徴選択
`stepwiselm`	ステップワイズ回帰の実行
`stepwiseglm`	ステップワイズ回帰による一般化線形回帰モデルの作成

特徴量エンジニアリング

`genrfeatures`	回帰用の自動特徴量エンジニアリングの実行
`describe`	生成された特徴量の説明
`transform`	生成された特徴量を使用した新しいデータの変換

自動モデル選択

fitrauto 最適化されたハイパーパラメーターをもつ回帰モデルの自動選択

ハイパーパラメーターの最適化

`bayesopt`	ベイズ最適化を使用した最適な機械学習のハイパーパラメーターの選択
`hyperparameters`	近似関数を最適化するための変数の説明
`optimizableVariable`	`bayesopt`またはその他のオプティマイザーの変数の説明

交差検証

`crossval`	交差検証を使用した損失の推定
`cvpartition`	交差検証用のデータの分割
`repartition`	交差検証のための再分割データ
`test`	交差検証用の検定インデックス
`training`	交差検証用の学習インデックス

モデルの解釈

当地可判断的Model-agnostic解释(LIME)

`lime`	当地可判断的Model-agnostic解释(LIME)
`fit`	当地可判断的Model-agnostic解释(LIME) の単純モデルのあてはめ
`plot`	当地可判断的Model-agnostic解释(LIME) の結果のプロット

シャープレイ値

`shapley`	シャープレイ値
`fit`	クエリ点のシャープレイ値の計算
`plot`	シャープレイ値のプロット

部分従属

`partialDependence`	部分従属の計算
`plotPartialDependence`	部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成

線形モデルの診断

`coefCI`	線形回帰モデルの係数推定値の信頼区間
`coefTest`	線形回帰モデルの係数に対する線形仮説検定
`dwtest`	線形回帰モデルオブジェクトによるダービン・ワトソン検定
`plot`	線形回帰モデルの散布図または追加変数プロット
`plotAdded`	線形回帰モデルの追加変数プロット
`plotAdjustedResponse`	線形回帰モデルの調整応答プロット
`plotDiagnostics`	線形回帰モデルの観測値の診断情報をプロット
`plotEffects`	線形回帰モデルの予測子の主効果をプロット
`plotInteraction`	線形回帰モデルの 2 つの予測子の交互作用効果のプロット
`plotResiduals`	線形回帰モデルの残差プロット
`plotSlice`	近似線形回帰面を通るスライスのプロット

一般化線形モデルの診断

`coefCI`	一般化線形回帰モデルの係数推定の信頼区間
`coefTest`	一般化線形回帰モデルの係数に対する線形仮説検定
`devianceTest`	一般化線形回帰モデルの逸脱度の分析
`plotDiagnostics`	一般化線形回帰モデルの観測値の診断情報のプロット
`plotResiduals`	一般化線形回帰モデルの残差プロット
`plotSlice`	近似された一般化線形回帰面を通るスライスのプロット

非線形モデルの診断

`coefCI`	非線形回帰モデルの係数推定の信頼区間
`coefTest`	非線形回帰モデルの係数に対する線形仮説検定
`plotDiagnostics`	非線形回帰モデルの診断プロット
`plotResiduals`	非線形回帰モデルの残差プロット
`plotSlice`	近似非線形回帰面を通るスライスのプロット

線形仮説検定

linhyptest 線形仮説検定

オブジェクト

すべて展開する

特徴選択

FeatureSelectionNCARegression 近傍成分分析 (NCA) を使用する回帰用の特徴選択

特徴量エンジニアリング

FeatureTransformer 生成された特徴変換

ハイパーパラメーターの最適化

BayesianOptimization ベイズ最適化の結果

トピック

回帰学習器アプリのワークフロー

回帰学習器アプリにより回帰モデルに学習をさせる
自動、手動および並列学習など、回帰モデルの学習、比較および改善を行うためのワークフローです。
回帰モデルのオプションの選択
回帰学習器で、選択したモデルに自動的に学習をさせ、線形回帰モデル、回帰木、サポートベクターマシン、ガウス過程回帰モデル、回帰木のアンサンブルおよび回帰ニューラルネットワークのオプションを比較および調整します。
回帰学習器アプリの使用による特徴選択と特徴変換
プロットを使用して有用な予測子を識別し、含める特徴量を手動で選択し、回帰学習器で PCA を使用して特徴量を変換します。
回帰学習器におけるモデルの性能評価
モデルの統計量を比較し、結果を可視化します。

特徴選択

特徴選択の紹介
特徴選択アルゴリズムについて学び、特徴選択に使用できる関数を確認します。
逐次特徴選択
このトピックでは、逐次特徴選択の基本を説明し、カスタム基準と関数sequentialfsを使用して逐次的に特徴量を選択する例を示します。
近傍成分分析 (NCA) 特徴選択
近傍成分分析 (NCA) は、特徴量を選択するためのノンパラメトリックな手法であり、回帰および分類アルゴリズムの予測精度を最大化することを目的とします。
回帰に NCA を使用するロバスト特徴選択
カスタムなロバスト損失関数を NCA で使用して、外れ値に対してロバストな特徴選択を実行します。
ランダムフォレストの予測子の選択
交互作用検定アルゴリズムを使用してランダムフォレストの分割予測子を選択します。

特徴量エンジニアリング

回帰用の自動特徴量エンジニアリング
回帰モデルに学習させる前に新しい特徴量を設計するために、genrfeaturesを使用する。新しいデータの予測の前に同じ特徴変換を新しいデータセットに適用する。

自動モデル選択

ベイズ最適化および ASHA 最適化による回帰モデルの自動選択
fitrautoを使用し、指定した学習予測子と応答データに基づいてさまざまなハイパーパラメーターの値をもつ回帰モデルのタイプの選択を自動的に試行。

ハイパーパラメーターの最適化

ベイズ最適化のワークフロー
近似関数を使用するかbayesoptを直接呼び出してベイズ最適化を実行します。
ベイズ最適化用の変数
ベイズ最適化用の変数を作成します。
ベイズ最適化の目的関数
ベイズ最適化の目的関数を作成します。
ベイズ最適化の制約
ベイズ最適化に対してさまざまな種類の制約を設定します。
ブースティング回帰アンサンブル回帰の最適化
アンサンブル回帰の交差検証損失を最小化します。
ベイズ最適化のプロット関数
ベイズ最適化を視覚的に監視します。
ベイズ最適化の出力関数
ベイズ最適化を監視します。
ベイズ最適化のアルゴリズム
ベイズ最適化の基となるアルゴリズムについて理解します。
並列ベイズ最適化
並列ベイズ最適化はどのように機能するか。

モデルの解釈

機械学習モデルの解釈
lime、shapleyおよびplotPartialDependenceを使用してモデル予測を説明する。
機械学習モデルのシャープレイ値
kernelSHAP と kernelSHAP の拡張機能の 2 つのアルゴリズムを使用して、機械学習モデルのシャープレイ値を計算する。

交差検証

並列計算を使用する交差検証の実装
並列計算を使用して交差検証を高速化します。

線形モデルの診断

線形回帰の結果の解釈
線形回帰の出力統計を表示および解釈します。
線形回帰
線形回帰モデルをあてはめ、結果を調べます。
交互作用の影響による線形回帰
交互作用効果がある線形回帰モデルを作成および分析し、結果を解釈します。
出力と診断統計量の概要
モデルのプロパティとオブジェクト関数を使用して、あてはめたモデルを評価する。
F 統計量と t 統計量
線形回帰における F 統計量は、分散分析 (ANOVA) 手法で使用される検定統計量です。これにより、モデルまたはモデルの成分の有意性を検定できます。t 統計量は、回帰係数に関する推定を行うために役立ちます。
決定係数 (R-squared)
決定係数 (R-squared) は、線形回帰モデルの独立変数 X で説明される応答変数 y の変化に比例する量を表します。
係数の標準誤差と信頼区間
推定された係数の分散と共分散から、回帰係数の推定値の精度がわかります。
残差
残差は、y の外れ値を検出し、回帰モデルの誤差項に関する線形回帰仮定を確認する場合に便利です。
ダービン・ワトソン検定
ダービン・ワトソン検定は、時系列データの残差間の自己相関の有無を評価します。
クックの距離
クックの距離は X の値 (予測子変数の観測数) から外れ値を特定する場合に便利です。
ハット行列とてこ比
ハット行列を使用するとてこ比を測定できます。
1 標本を取り除いたときの統計
1 標本を取り除いたときの共分散の変化 (CovRatio) により、回帰近似に影響を与える観測値が特定されます。

一般化線形モデルの診断

一般化線形モデル
一般化線形モデルは、線形手法を使用して、予測子項と応答変数との間の潜在的な非線形関係を説明します。

非線形モデルの診断

非線形回帰
パラメトリック非線形モデルは、連続応答変数と 1 つ以上の連続予測子変数の関係を表します。