偏最小二乘(请)回归是一种用于包含相关预测变量的数据的技术。这种技术构造新的预测变量,称为组件为原始预测变量的线性组合。PLS在考虑观测到的响应值的同时构造这些成分,从而得到一个具有可靠预测能力的简约模型。
多元线性回归找到最适合响应的预测因子的组合。
主成分分析发现了具有较大方差的预测因子的组合,减少了相关性。该技术不使用响应值。
PLS找到与响应值有较大协方差的预测因子的组合。
因此,PLS结合了关于预测因子和响应的方差的信息,同时也考虑了它们之间的相关性。
PLS与其他回归和特征转换技术具有相同的特点。它类似于岭回归在这种情况下,它被用于具有相关预测因素的情况。它类似于逐步回归(或更一般的特征选择技术),因为它可以用来选择更小的模型术语集。然而,PLS与这些方法不同的是,它将原始的预测器空间转换为新的分量空间。
这个函数plsregress
进行PLS回归。
这个例子演示了如何执行PLS回归,以及如何选择PLS模型中组件的数量。
考虑生物化学需氧量的数据moore.mat
,用噪声版本的预测器填充,以引入相关性。
负载摩尔Y = moore(:,6);%响应X0 =摩尔(:,1:5);%原始预测因子X1 = X0+10*randn(size(X0));%相关预测因子X = [x0, x1];
使用plsregress
以相同数量的组件作为预测因子进行PLS回归,然后绘制响应中解释的百分比方差作为组件数量的函数。
[XL,yl,XS,YS,beta,PCTVAR] = plsregression (X,y,10);情节(1:10,cumsum (100 * PCTVAR (2:)),“o”)包含(“PLS组件数目”) ylabel (“用y解释的百分比方差”)
PLS模型中构件数量的选择是一个关键步骤。该图给出了一个粗略的指示,显示了近80%的方差y
由第一个组件解释,还有多达五个其他组件做出了重要贡献。
下面计算六分量模型。
[XL,yl,XS,YS,beta,PCTVAR,MSE,stats] = plsregression (X,y,6);yfit = [ones(size(X,1),1) X]*beta;情节(y, yfit,“o”)
散点显示拟合响应与观测响应之间存在合理的相关性,这是由模型所证实的 统计。
TSS = sum((y-mean(y)).^2);RSS = sum((y-yfit).^2);Rsquared = 1 - RSS/TSS
r平方= 0.8240
六个组成部分中十个预测因子的权重图显示,其中两个组成部分(最后两个计算出来的)解释了中大部分的方差X
.
图绘制(1:10,统计数据。W,“啊——”)({传奇“c1”,c2的,“c3”,“c4”,“c5”,“c6”},“位置”,“最佳”)包含(“预测”) ylabel (“重量”)
均方误差图表明,只要两个分量就可以提供一个适当的模型。
图yyaxis左情节(0:6 MSE (1:)“o”) yyaxis正确的情节(0:6 MSE (2:)“o”)传说(的均方误差预测,“MSE响应”)包含(“组件数量”)
均方误差的计算由plsregress
由指定交叉验证类型和蒙特卡罗重复次数的可选名称-值参数控制。