主要内容

偏最小二乘

偏最小二乘导论

偏最小二乘)回归是一种用于包含相关预测变量的数据的技术。这种技术构造新的预测变量,称为组件为原始预测变量的线性组合。PLS在考虑观测到的响应值的同时构造这些成分,从而得到一个具有可靠预测能力的简约模型。

这是一种介于多元线性回归而且主成分分析

  • 多元线性回归找到最适合响应的预测因子的组合。

  • 主成分分析发现了具有较大方差的预测因子的组合,减少了相关性。该技术不使用响应值。

  • PLS找到与响应值有较大协方差的预测因子的组合。

因此,PLS结合了关于预测因子和响应的方差的信息,同时也考虑了它们之间的相关性。

PLS与其他回归和特征转换技术具有相同的特点。它类似于岭回归在这种情况下,它被用于具有相关预测因素的情况。它类似于逐步回归(或更一般的特征选择技术),因为它可以用来选择更小的模型术语集。然而,PLS与这些方法不同的是,它将原始的预测器空间转换为新的分量空间。

这个函数plsregress进行PLS回归。

执行偏最小二乘回归

这个例子演示了如何执行PLS回归,以及如何选择PLS模型中组件的数量。

考虑生物化学需氧量的数据moore.mat,用噪声版本的预测器填充,以引入相关性。

负载摩尔Y = moore(:,6);%响应X0 =摩尔(:,1:5);%原始预测因子X1 = X0+10*randn(size(X0));%相关预测因子X = [x0, x1];

使用plsregress以相同数量的组件作为预测因子进行PLS回归,然后绘制响应中解释的百分比方差作为组件数量的函数。

[XL,yl,XS,YS,beta,PCTVAR] = plsregression (X,y,10);情节(1:10,cumsum (100 * PCTVAR (2:)),“o”)包含(“PLS组件数目”) ylabel (“用y解释的百分比方差”

图中包含一个轴对象。axis对象包含一个line类型的对象。

PLS模型中构件数量的选择是一个关键步骤。该图给出了一个粗略的指示,显示了近80%的方差y由第一个组件解释,还有多达五个其他组件做出了重要贡献。

下面计算六分量模型。

[XL,yl,XS,YS,beta,PCTVAR,MSE,stats] = plsregression (X,y,6);yfit = [ones(size(X,1),1) X]*beta;情节(y, yfit,“o”

图中包含一个轴对象。axis对象包含一个line类型的对象。

散点显示拟合响应与观测响应之间存在合理的相关性,这是由模型所证实的 R 2 统计。

TSS = sum((y-mean(y)).^2);RSS = sum((y-yfit).^2);Rsquared = 1 - RSS/TSS
r平方= 0.8240

六个组成部分中十个预测因子的权重图显示,其中两个组成部分(最后两个计算出来的)解释了中大部分的方差X

图绘制(1:10,统计数据。W,“啊——”)({传奇“c1”c2的“c3”“c4”“c5”“c6”},“位置”“最佳”)包含(“预测”) ylabel (“重量”

图中包含一个轴对象。axis对象包含6个line类型的对象。这些对象表示c1 c2 c3 c4 c5 c6。

均方误差图表明,只要两个分量就可以提供一个适当的模型。

图yyaxis情节(0:6 MSE (1:)“o”) yyaxis正确的情节(0:6 MSE (2:)“o”)传说(的均方误差预测“MSE响应”)包含(“组件数量”

图中包含一个轴对象。axis对象包含2个line类型的对象。这些对象表示MSE预测器、MSE响应。

均方误差的计算由plsregress由指定交叉验证类型和蒙特卡罗重复次数的可选名称-值参数控制。

另请参阅

相关的话题