主要内容

plsregress

部分最小二乘(PLS)回归

描述

[XL.YL型) = plsregress (XynComp.返回预测器和响应装载XL.YL型分别用于矩阵中的响应的局部最小二乘(PLS)回归y在矩阵中的预测因子上X,使用nComp.PLS组件。

例子

[XL.YL型XSybetPCTVAR均方误差统计) = plsregress (XynComp.也返回:

  • 预测者分数XS.预测分数是PLS成分,是变量的线性组合X

  • 响应分数y.回答分数是与PLS组成部分的回答的线性组合XS拥有最大的协方差。

  • 矩阵betPLS回归系数估计。plsregress在矩阵中添加一列X计算具有常数术语(截距)的模型的系数估计。

  • 方差的百分比PCTVAR回归模型解释。

  • 估计的平均平方误差均方误差用于PLS型号nComp.成分。

  • 一个结构统计包含PLS权重,T.2统计和预测因子和反应残差。

[XL.YL型XSybetPCTVAR均方误差统计) = plsregress (___名称,价值除了先前语法中的任何输入参数组合之外,使用一个或多个名称值参数指定选项。名称值参数指定均方误差计算参数。例如,'cv',5计算均方误差使用5倍交叉验证。

例子

全部收缩

加载光谱数据集。创建预测指标X作为一个数字矩阵,其包含在401波长的60个汽油样品的近红外(NIR)光谱强度。创建响应y作为包含相应辛烷值的数字向量。

加载光谱X =近红外光谱;y =辛烷;

执行PLS回归10个组件的响应y关于预测因子X

[xl,yl,xs,ys,beta,pctvar] = plsregress(x,y,10);

绘制响应变量解释的方差百分比(PCTVAR)作为组件数量的函数。

情节(1:10,Cumsum(100 * Pctvar(2,:)),'-bo');Xlabel(“PLS组件数量”);ylabel(在y'中解释的'百分比方差);

图包含轴。轴包含类型线的对象。

计算拟合响应并显示残差。

YFIT = [那里(尺寸(x,1),1)x] * beta;残差= Y  -  YFIT;茎(残留)Xlabel('观察');ylabel(“残差”);

图包含轴。轴包含型杆的物体。

为偏最小二乘(PLS)回归模型计算变量在投影(VIP)得分。当变量之间存在多重共线性时,可以使用VIP来选择预测变量。VIP评分大于1的变量被认为对PLS回归模型的投影很重要[3]

加载光谱数据集。创建预测指标X作为一个数字矩阵,其包含在401波长的60个汽油样品的近红外(NIR)光谱强度。创建响应y作为包含相应辛烷值的数字向量。指定组件的数量nComp.

加载光谱X =近红外光谱;y =辛烷;ncomp = 10;

执行PLS回归与y在预测器中的响应的10个组件X

[xl,yl,xs,ys,beta,pctvar,mse,stats] = plsregress(x,y,ncomp);

计算标准化的PLS重量。

W0 =统计数据。W.。/ sqrt(sum(stats.W.^2,1));

计算VIP分数nComp.成分。

p =尺寸(xl,1);sumsq = sum(xs。^ 2,1)。*和(yl. ^ 2,1);vipscore = sqrt(p * sum(sumsq。*(w0. ^ 2),2)./ sum(sumsq,2));

找到VIP评分大于或等于1的变量。

Indvip = find(vipscore> = 1);

绘制VIP分数。

散射(1:长度(vipScore) vipScore,'X') 抓住分散(Indvip,VIPSCORE(Indvip),'rx'图([1 length(vipScore)],[1 1],' -  k') 抓住离开Xlabel('预测变量')ylabel('VIP分数'

图包含轴。轴包含3个类型的散射,线。

输入参数

全部收缩

预测变量,指定为数字矩阵。X是一个N——- - - - - -P.矩阵,N是观察人数和P.是预测变量的数量。每一排X表示一个观察,每一列表示一个变量。X必须具有相同的行数为y

数据类型:单身的|

响应变量,指定为数字矩阵。y是一个N——- - - - - -m矩阵,N是观察人数和m为响应变量的个数。每一排y表示一个观察,每一列表示一个变量。在每一行y是对应行的响应X

数据类型:单身的|

组件数量,指定为数字向量。如果您未指定nComp.,默认值是最小(尺寸(x,1) - 1,尺寸(x,2))

数据类型:单身的|

名称值对参数

指定可选的逗号分离对名称,价值参数。姓名是参数名称和价值是相应的价值。姓名必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“选项”的“简历”,10日,statset (UseParallel,真的)计算均方误差使用10倍交叉验证,计算并行运行。

均方误差计算方法,指定为'重新提交',正整数,或一个CVPartition.目的。

  • 指定'简历'作为'重新提交'使用两者Xy为了适应模型并估计平均平方误差,无需交叉验证。

  • 指定'简历'作为正整数K.使用K.- 折扣交叉验证。

  • 指定'简历'作为一个CVPartition.对象指定另一种类型的交叉验证分区。

例子:'cv',5

例子:'cv',cvpartition(n,'holdout',0.3)

数据类型:单身的||字符|细绳

交叉验证的蒙特卡罗重复数量,指定为正整数。如果您指定'简历'作为'重新提交', 然后'mcreps'必须是1。

例子:“mcreps”,5

数据类型:单身的|

正在并行运行计算和设置随机流的选项,指定为结构。创造选项结构与statset.此表列出了选项字段及其值。

字段名 价值 默认
使用指α. 将此值设置为真的并行运行计算。 错误的
Userumstreams.

将此值设置为真的以可重复的方式运行计算并行计算。

计算可重复的,设置到允许子流的类型:'mlfg6331_64'或者'MRG32K3A'

错误的
将此值指定为arandstream.对象或由一个这样的物体组成的单元阵列。 如果您未指定, 然后plsregress使用默认流。

笔记

您需要并行计算工具箱™并行运行计算。

例子:“选项”,statset (UseParallel,真的)

数据类型:塑造

输出参数

全部收缩

预测负载量,作为数字矩阵返回。XL.是A.P.——- - - - - -nComp.矩阵,P.是预测变量的数量和nComp.是PLS组件的数量。每一排XL.包含定义近似原始预测变量的PLS组件的线性组合的系数。

数据类型:单身的|

响应加载,作为数字矩阵返回。YL型是一个m——- - - - - -nComp.矩阵,m是响应变量的数量和nComp.是PLS组件的数量。每一排YL型包含定义近似原始响应变量的PLS组件的线性组合的系数。

数据类型:单身的|

预测器得分,以数字矩阵的形式返回。XS是一个N——- - - - - -nComp.正交矩阵,在哪里N是观察人数和nComp.是PLS组件的数量。每一排XS对应一个观察值,每一列对应一个组件。

数据类型:单身的|

响应分数,以数字矩阵的形式返回。y是一个N——- - - - - -nComp.矩阵,N是观察人数和nComp.是PLS组件的数量。每一排y对应一个观察值,每一列对应一个组件。y不是正交或标准化的。

数据类型:单身的|

PLS回归的系数估计,作为数字矩阵返回。bet是一个(P.+ 1)--by-m矩阵,P.是预测变量的数量和m为响应变量的个数。第一排bet包含常数术语的系数估计。

数据类型:单身的|

模型解释的方差百分比,作为数字矩阵返回。PCTVAR是一个2-by-nComp.矩阵,nComp.是PLS组件的数量。第一排PCTVAR包含所解释的方差百分比X每个PLS组件,第二行包含所解释的方差百分比y

数据类型:单身的|

均方误差,以数字矩阵的形式返回。均方误差是一个2 - (nComp.+ 1)矩阵,在哪里nComp.是PLS组件的数量。均方误差包含PLS模型的估计平均平方误差nComp.成分。第一排均方误差中包含预测变量的均方误差X,第二行包含用于响应变量的均方向错误y.列j均方误差包含平均平方误差J - 1成分。

数据类型:单身的|

模型统计信息,返回为具有此表中描述的字段的结构。

场地 描述
W. P.——- - - - - -nComp.PLS重量的矩阵使其如此xs = x0 * w
T2. T.2每个点的统计XS
Xresiduals. 预测差别,x0 - xs * xl'
yresiduals. 反应残差,y0 - xs * yl'

有关中心预测器和响应变量的更多信息X0.Y0, 看算法

算法

plsregress使用SIMPLS算法[1].功能第一中心Xy通过减去列表示以中心预测器和响应变量X0.Y0, 分别。但是,该函数不会重新归类列。使用标准化变量执行PLS回归,使用ZScore.正常化Xy(列的列X0.Y0集中为均值0,缩放为标准差1)。

居住后Xyplsregress计算奇异值分解(SVD)x0'* y0.预测器和响应载荷XL.YL型是从回归中获得的系数X0.Y0在预测指标分数XS.您可以重建中心数据X0.Y0使用XS * XL'xs * yl', 分别。

plsregress最初计算y作为y = Y0 * YL型.按照惯例[1], 然而,plsregress然后正交化每列y的前一列XS, 以便xs'* ys是一个较低的三角形矩阵。

参考文献

[1] De Jong,Sijmen。“简化:偏离方格回归的替代方法。”化学计量学和智能实验室系统18日,没有。3(1993年3月):251-63。https://doi.org/10.1016/0169-7439 (93)85002-x.

[2] Rosipal,Roman和Nicole Kramer。“概述和近期最小二乘的进步。”子空间、潜在结构和特征选择:统计与优化视角研讨会(SLSFS 2005),修订论文选集(计算机科学讲义3940).德国柏林:施普林格出版社,2006,第3940卷,第34-51页。https://doi.org/10.1007/11752790_2

[3] Chong, Il-Gyo, and Chi-Hyuck Jun. <多重共线性存在时一些变量选择方法的表现>化学计量学和智能实验室系统78,没有。1-2(2005年7月)103-12。https://doi.org/10.1016/j.chemolab.2004.12.011

扩展能力

在R2008A介绍