Main Content

このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。

モデルの作成と評価

特徴選択、特徴量エンジニアリング、モデル選択、ハイパーパラメーターの最適化、交差検証、残差診断、プロット

高品質の回帰モデルを構築するには、正しい特徴量 (予測子) の選択、ハイパーパラメーター (データへの当てはめを行わないモデル パラメーター) の調整、残差診断によるモデル仮定の評価を行うことが重要です。

ハイパーパラメーターの値の選択とモデルの交差検証を繰り返すことにより、ハイパーパラメーターを調整できます。このプロセスでは複数のモデルが生成されますが、推定された汎化誤差が最小になるものが最適なモデルである場合があります。たとえば、SVM モデルを調整するには、一連のボックス制約およびカーネル スケールを選択し、値の各ペアについてモデルを交差検証して、10 分割交差検証の平均二乗誤差の推定値を比較します。

回帰モデルに学習させる前に新しい特徴量を設計するには、genrfeaturesを使用します。

回帰モデルの構築と評価を対話的に行うには、回帰学習器アプリを使用します。

調整されたハイパーパラメーターでモデルを自動的に選択するには、fitrautoを使用します。この関数は、回帰モデルのタイプの選択をさまざまなハイパーパラメーターの値で試し、適切に実行されることが期待される最終モデルを返します。データに最適な回帰モデルのタイプがわからない場合は、fitrautoを使用します。

Statistics and Machine Learning Toolbox™ の一部のノンパラメトリック回帰関数では、ベイズ最適化、グリッド探索またはランダム探索による自動的なハイパーパラメーター調整が提供されます。ベイズ最適化を実装するための main 関数であるbayesoptは、他の多くの用途にも応用が利きます。詳細は、ベイズ最適化のワークフローを参照してください。

回帰モデルを解釈するために、limeshapleyおよびplotPartialDependenceを使用できます。

アプリ

回帰学習器 教師あり機械学習を使用して、データを予測するように回帰モデルに学習をさせる

関数

すべて展開する

fsrftest F 検定を使用した回帰のための一変量の特徴量ランク付け
fsrnca 回帰に近傍成分分析を使用する特徴選択
oobPermutedPredictorImportance 回帰木のランダム フォレストに対する out-of-bag 予測子の並べ替えによる予測子の重要度の推定
partialDependence 部分従属の計算
plotPartialDependence 部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成
predictorImportance 回帰木の予測子の重要度の推定
predictorImportance 回帰アンサンブルの予測子の重要度の推定
relieff ReliefF または RReliefF アルゴリズムを使用した予測子の重要度のランク付け
sequentialfs カスタム基準を使用した逐次特徴選択
stepwiselm ステップワイズ回帰の実行
stepwiseglm ステップワイズ回帰による一般化線形回帰モデルの作成
genrfeatures 回帰用の自動特徴量エンジニアリングの実行
describe 生成された特徴量の説明
transform 生成された特徴量を使用した新しいデータの変換
fitrauto 最適化されたハイパーパラメーターをもつ回帰モデルの自動選択
bayesopt ベイズ最適化を使用した最適な機械学習のハイパーパラメーターの選択
hyperparameters 近似関数を最適化するための変数の説明
optimizableVariable bayesoptまたはその他のオプティマイザーの変数の説明
crossval 交差検証を使用した損失の推定
cvpartition 交差検証用のデータの分割
repartition 交差検証のための再分割データ
test 交差検証用の検定インデックス
training 交差検証用の学習インデックス

当地可判断的Model-agnostic解释(LIME)

lime 当地可判断的Model-agnostic解释(LIME)
fit 当地可判断的Model-agnostic解释(LIME) の単純モデルのあてはめ
plot 当地可判断的Model-agnostic解释(LIME) の結果のプロット

シャープレイ値

shapley シャープレイ値
fit クエリ点のシャープレイ値の計算
plot シャープレイ値のプロット

部分従属

partialDependence 部分従属の計算
plotPartialDependence 部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成
coefCI 線形回帰モデルの係数推定値の信頼区間
coefTest 線形回帰モデルの係数に対する線形仮説検定
dwtest 線形回帰モデル オブジェクトによるダービン・ワトソン検定
plot 線形回帰モデルの散布図または追加変数プロット
plotAdded 線形回帰モデルの追加変数プロット
plotAdjustedResponse 線形回帰モデルの調整応答プロット
plotDiagnostics 線形回帰モデルの観測値の診断情報をプロット
plotEffects 線形回帰モデルの予測子の主効果をプロット
plotInteraction 線形回帰モデルの 2 つの予測子の交互作用効果のプロット
plotResiduals 線形回帰モデルの残差プロット
plotSlice 近似線形回帰面を通るスライスのプロット
coefCI 一般化線形回帰モデルの係数推定の信頼区間
coefTest 一般化線形回帰モデルの係数に対する線形仮説検定
devianceTest 一般化線形回帰モデルの逸脱度の分析
plotDiagnostics 一般化線形回帰モデルの観測値の診断情報のプロット
plotResiduals 一般化線形回帰モデルの残差プロット
plotSlice 近似された一般化線形回帰面を通るスライスのプロット
coefCI 非線形回帰モデルの係数推定の信頼区間
coefTest 非線形回帰モデルの係数に対する線形仮説検定
plotDiagnostics 非線形回帰モデルの診断プロット
plotResiduals 非線形回帰モデルの残差プロット
plotSlice 近似非線形回帰面を通るスライスのプロット
linhyptest 線形仮説検定

オブジェクト

すべて展開する

FeatureSelectionNCARegression 近傍成分分析 (NCA) を使用する回帰用の特徴選択
FeatureTransformer 生成された特徴変換
BayesianOptimization ベイズ最適化の結果

トピック

回帰学習器アプリのワークフロー

特徴選択

  • 特徴選択の紹介
    特徴選択アルゴリズムについて学び、特徴選択に使用できる関数を確認します。
  • 逐次特徴選択
    このトピックでは、逐次特徴選択の基本を説明し、カスタム基準と関数sequentialfsを使用して逐次的に特徴量を選択する例を示します。
  • 近傍成分分析 (NCA) 特徴選択
    近傍成分分析 (NCA) は、特徴量を選択するためのノンパラメトリックな手法であり、回帰および分類アルゴリズムの予測精度を最大化することを目的とします。
  • 回帰に NCA を使用するロバスト特徴選択
    カスタムなロバスト損失関数を NCA で使用して、外れ値に対してロバストな特徴選択を実行します。
  • ランダム フォレストの予測子の選択
    交互作用検定アルゴリズムを使用してランダム フォレストの分割予測子を選択します。

特徴量エンジニアリング

  • 回帰用の自動特徴量エンジニアリング
    回帰モデルに学習させる前に新しい特徴量を設計するために、genrfeaturesを使用する。新しいデータの予測の前に同じ特徴変換を新しいデータ セットに適用する。

自動モデル選択

ハイパーパラメーターの最適化

モデルの解釈

交差検証

線形モデルの診断

  • 線形回帰の結果の解釈
    線形回帰の出力統計を表示および解釈します。
  • 線形回帰
    線形回帰モデルをあてはめ、結果を調べます。
  • 交互作用の影響による線形回帰
    交互作用効果がある線形回帰モデルを作成および分析し、結果を解釈します。
  • 出力と診断統計量の概要
    モデルのプロパティとオブジェクト関数を使用して、あてはめたモデルを評価する。
  • F 統計量と t 統計量
    線形回帰における F 統計量は、分散分析 (ANOVA) 手法で使用される検定統計量です。これにより、モデルまたはモデルの成分の有意性を検定できます。t 統計量は、回帰係数に関する推定を行うために役立ちます。
  • 決定係数 (R-squared)
    決定係数 (R-squared) は、線形回帰モデルの独立変数 X で説明される応答変数 y の変化に比例する量を表します。
  • 係数の標準誤差と信頼区間
    推定された係数の分散と共分散から、回帰係数の推定値の精度がわかります。
  • 残差
    残差は、y の外れ値を検出し、回帰モデルの誤差項に関する線形回帰仮定を確認する場合に便利です。
  • ダービン・ワトソン検定
    ダービン・ワトソン検定は、時系列データの残差間の自己相関の有無を評価します。
  • クックの距離
    クックの距離は X の値 (予測子変数の観測数) から外れ値を特定する場合に便利です。
  • ハット行列とてこ比
    ハット行列を使用するとてこ比を測定できます。
  • 1 標本を取り除いたときの統計
    1 標本を取り除いたときの共分散の変化 (CovRatio) により、回帰近似に影響を与える観測値が特定されます。

一般化線形モデルの診断

  • 一般化線形モデル
    一般化線形モデルは、線形手法を使用して、予測子項と応答変数との間の潜在的な非線形関係を説明します。

非線形モデルの診断

  • 非線形回帰
    パラメトリック非線形モデルは、連続応答変数と 1 つ以上の連続予測子変数の関係を表します。