主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

部分最小二乗

部分最小二乗の紹介

"部分最小二乗")回帰は,相関関係がある複数の予測子変数が含まれているデータに対して使用される手法です。この手法は,元の予測子変数の線形結合として,"成分"として知られる,新しい予測子変数を構成します。部分最小二乗は、観測された応答値を考慮しつつ、これらの成分を構成し、信頼できる予測力をもつ単純なモデルを作成します。

この手法は,多重線形回帰主成分分析の中間と言えるでしょう。

  • 多重線形回帰は,応答に最もよく適合する予測子の組み合わせを見つけます。

  • 主成分分析は,大きな分散で予測子の組み合わせを見つけ,相関関係を減らします。この手法では応答値は使用されません。

  • 部分最小二乗は,大きい共分散をもつ予測子の組み合わせを応答値で見つけます。

したがって,部分最小二乗は,それらの相関関係も考慮しながら,予測子と応答の両方の分散に関する情報を結合します。

部分最小二乗は,他の回帰と特徴変換手法の特徴を共有します。相関予測子をもつ状況で使用されるという点で,これはリッジ回帰に似ています。モデル項のより小さいセットを選択するために使用できるという点で,ステップワイズ回帰(または,より一般的な特徴選択手法)にも似ています。しかし,部分最小二乗がこれらのメソッドと異なるのは,元の予測子空間を新しい成分の空間に変換することです。

関数plsregressは,请回帰を行います。

部分最小二乗

たとえば,相関関係を導入するために予測子のノイズバージョンが付加されるmoore.mat内の生物化学的酸素要求量のデータを考えてみましょう。

负载摩尔y =摩尔(:,6);%响应X0 =摩尔(:,1:5);%原始预测因子X1 = X0+10*randn(size(X0));相关预测因子X = [X0,X1];

plsregressを使用して,予測子と同じ数の成分によって部分最小二乗回帰を実行します。次に,成分数の関数として応答で説明されるパーセンテージ分散の座標をプロットします。

[XL, yl, X, y,β,PCTVAR] = plsregress (X, y, 10);情节(1:10,cumsum (100 * PCTVAR(2:)),“博”);xlabel(' PLS组件数量');ylabel('Percent Variance Explained in y');

部分最小二乗モデルの成分の数を選ぶステップは重要です。プロットはおおよその情報を与え,最初の成分によって説明されるyの分散の約80%を示します。最大5つの追加成分が非常に役立ちます。

以下は6成分のモデルを計算します。

[XL, yl, X, y,β,PCTVAR, MSE,统计]= plsregress (X, y, 6);yfit = [ones(size(X,1),1) X]* β;情节(y, yfit,“o”)

散布は,近似応答と観測応答の妥当な相互関係を示します。これは,R2の統計量によって確認されます。

TSS =总和(y-mean (y)) ^ 2);RSS = ((y-yfit) ^ 2)总和;Rsquared = 1 - RSS/TSS

個々の6成分には10個の予測子の重み付けしたプロットは,2つの成分(最後に計算された2つ)がXにおいて分散の大多数を説明することを示します。

情节(1:10,stats.W,“啊——”);传奇({c1, c2, c3, c4、c5、c6的},“位置”,“西北”)包含(预测);ylabel(重量);

平均二乗誤差のプロットは,少なくとも2つの成分が適正なモデルを提供することを示唆します。

(轴,h1, h2) = plotyy (0:6, MSE (1:), 0:6, MSE (2:));set(h1,'Marker','o') legend('MSE Predictors','MSE Response') xlabel('Number of Components')

plsregressによる平均二乗誤差の計算は,交差検証のタイプとモンテカルロ反復の数を指定するオプションのパラメーターの名前と値のペアにより制御されます。