主要内容

plsregress

偏最小二乘回归

描述

XLYL型) = plsregress (XYncomp返回预测器和响应负载XLYL型,进行偏最小二乘(PLS)回归Y关于矩阵中的预测器X,使用ncompPLS组件。

例子

XLYL型XSy贝塔PCTVAR均方误差统计数据) = plsregress (XYncomp返回:

  • 预测成绩XS.预测分数是PLS成分,是变量的线性组合X

  • 响应的分数y.回答分数是与PLS组成部分的回答的线性组合XS有最大的协方差。

  • 一个矩阵贝塔的系数估计PLS回归。plsregress在矩阵中添加一列X计算具有常数项(截距)的模型的系数估计。

  • 方差百分比PCTVAR用回归模型解释。

  • 估计的均方误差均方误差对于带有ncomp组件。

  • 一个结构统计数据包含PLS权重的,T2统计、预测和反应残差。

XLYL型XSy贝塔PCTVAR均方误差统计数据) = plsregress (___名称,值指定除了先前语法中的任何输入参数组合之外,还使用一个或多个名称值参数的选项。名称值参数指定均方误差计算参数。例如,“简历”,5计算均方误差使用5倍交叉验证。

例子

全部折叠

加载光谱数据集。创建预测X作为一个数字矩阵,包含60个汽油样品在401个波长下的近红外(NIR)光谱强度。创建响应y作为包含相应辛烷值的数字向量。

负载光谱X =近红外光谱;y =辛烷;

对样本中的10个响应分量进行PLS回归y在预测中X

[XL,yl,XS,YS,beta,PCTVAR]=plsregress(X,y,10);

绘制响应变量解释的方差百分比(PCTVAR)作为组件数量的函数。

绘图(1:10,cumsum(100*PCTVAR(2,:)),“博”);包含(“PLS组件数量”);伊莱贝尔('以y解释的百分比差异');

图中包含一个轴对象。axis对象包含一个类型为line的对象。

计算拟合响应并显示残差。

yfit = [ones(size(X,1),1) X]* β;残差= y - yfit;茎(残差)包含(“观察”);伊莱贝尔(“残差”);

图中包含一个轴对象。axis对象包含一个类型为stem的对象。

为偏最小二乘(PLS)回归模型计算变量在投影(VIP)得分。当变量之间存在多重共线性时,可以使用VIP来选择预测变量。VIP评分大于1的变量被认为对PLS回归模型的投影很重要[3]

加载光谱数据集。创建预测X作为一个数字矩阵,包含60个汽油样品在401个波长下的近红外(NIR)光谱强度。创建响应y作为包含相应辛烷值的数字向量。指定组件的数量ncomp

负载光谱X =近红外光谱;y =辛烷;ncomp = 10;

用y中10个分量的响应对预测因子进行PLS回归X

[XL, yl, X, y,β,PCTVAR, MSE,统计]= plsregress (X, y, ncomp);

计算归一化PLS权重。

W0 =统计数据。W./ sqrt(sum(stats.W.^2,1));

计算客户的VIP分数ncomp组件。

p=尺寸(XL,1);sumSq=总和(XS.^2,1)。*总和(yl.^2,1);vipScore=sqrt(p*总和(sumSq.*(W0.^2),2)。/sum(sumSq,2));

查找VIP分数大于或等于1的变量。

indVIP = find(vipScore >= 1);

绘制VIP分数。

散射(1:长度(vipScore) vipScore,“x”)持有在…上散射(indVIP vipScore (indVIP),“处方”图([1 length(vipScore)],[1 1],“--k”)持有包含(“预测变量”)伊拉贝尔(“VIP分数”

图中包含一个轴对象。轴对象包含3个类型为散点和线的对象。

输入参数

全部折叠

预测变量,指定为数值矩阵。X是一个n——- - - - - -p矩阵,n是观察次数和p是预测变量的数量。每行X表示一个观察,每一列表示一个变量。X必须具有与相同的行数Y

数据类型:仅有一个的|

响应变量,指定为数字矩阵。Y是一个n——- - - - - -矩阵,n是观察次数和是响应变量的数量。每行Y表示一个观察,每一列表示一个变量。在每一行Y是中对应行的响应X

数据类型:仅有一个的|

组件的数量,指定为数字向量。如果没有指定ncomp,默认值为min(大小(X, 1) - 1,大小(X, 2))

数据类型:仅有一个的|

名称-值参数

指定可选的逗号分隔的对名称,值参数。名称参数名和价值是对应的值。名称必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:Name1, Value1,…,的家

例子:“选项”的“简历”,10日,statset (UseParallel,真的)计算均方误差使用10倍交叉验证,计算并行运行。

均方误差计算方法,指定为“重新替代”,一个正整数,或acvpartition对象

  • 具体说明“简历”作为“重新替代”兼用XY拟合模型并估计均方误差,无需交叉验证。

  • 具体说明“简历”作为正整数k使用k-折叠交叉验证。

  • 具体说明“简历”作为一个cvpartition对象指定另一种类型的交叉验证分区。

例子:“简历”,5

例子:“简历”,cvpartition (0.3 n,“坚持”,)

数据类型:仅有一个的||字符|一串

交叉验证的蒙特卡罗重复次数,指定为正整数。如果您指定“简历”作为“重新替代”,然后“mcreps”必须是1。

例子:“mcreps”,5

数据类型:仅有一个的|

用于并行运行计算和设置随机流(指定为结构)的选项。创建选择权结构与statset。此表列出了选项字段及其值。

字段名 价值 违约
UseParallel 将此值设置为符合事实的并行运行并行计算。
UseSubstreams

将此值设置为符合事实的以可复制的方式并行运行计算。

若要重复计算,请设置转换为允许子流的类型:“mlfg6331_64”“mrg32k3a”

将此值指定为a兰德斯特朗对象或包含此类对象的单元格数组。 如果没有指定,然后plsregress使用默认流。

请注意

您需要并行计算工具箱™来并行运行计算。

例子:“选项”,statset (UseParallel,真的)

数据类型:结构体

输出参数

全部折叠

预测器加载,以数字矩阵的形式返回。XL是一个p——- - - - - -ncomp矩阵,p预测变量的数量是多少ncomp为PLS组件的数量。每一行的XL包含系数,这些系数定义了近似原始预测变量的PLS分量的线性组合。

数据类型:仅有一个的|

响应加载,作为数字矩阵返回。YL型是一个——- - - - - -ncomp矩阵,是响应变量的数量,以及ncomp为PLS组件的数量。每一行的YL型包含定义近似原始响应变量的PLS分量线性组合的系数。

数据类型:仅有一个的|

预测器得分,以数字矩阵的形式返回。XS是一个n——- - - - - -ncomp正交矩阵,n是观察次数和ncomp为PLS组件的数量。每一行的XS对应一个观察值,每一列对应一个组件。

数据类型:仅有一个的|

响应分数,以数字矩阵的形式返回。y是一个n——- - - - - -ncomp矩阵,n是观察次数和ncomp为PLS组件的数量。每一行的y对应一个观察值,每一列对应一个组件。y不是正交或标准化的。

数据类型:仅有一个的|

PLS回归的系数估计,作为数值矩阵返回。贝塔是一个(p+1)由-矩阵,p预测变量的数量是多少为响应变量的个数。第一行贝塔包含常数项的系数估计。

数据类型:仅有一个的|

由模型解释的方差百分比,以数字矩阵返回。PCTVAR是一个2 -ncomp矩阵,ncomp为PLS组件的数量。第一行PCTVAR包含解释的方差百分比X根据每个PLS分量,第二行包含中解释的方差百分比Y

数据类型:仅有一个的|

均方误差,以数字矩阵的形式返回。均方误差是一个2 - (ncomp+ 1)矩阵,其中ncomp为PLS组件的数量。均方误差包含估计的均方误差的PLS模型ncomp组件。第一行均方误差中包含预测变量的均方误差X,第二行包含中响应变量的均方误差Y.列j属于均方误差包含以下项的均方误差:j - 1组件。

数据类型:仅有一个的|

模型统计信息,作为结构返回,该结构包含该表中描述的字段。

描述
W p——- - - - - -ncompPLS权重矩阵,以便XS=X0*W
T2 T2统计每一分XS
Xresiduals 预测残差,X0–XS*XL'
Yresiduals 响应残差,Y0 - x * YL型”

有关中心预测器和反应变量的更多信息X0Y0,请参阅算法

算法

plsregress使用SIMPLS算法[1].功能第一中心XY通过减去列意味着得到中心预测器和响应变量X0Y0,分别。但是,该函数不会重新缩放列。用标准化变量进行PLS回归,请使用zscore正常化XY(第X0Y0集中为均值0,缩放为标准差1)。

定心后XYplsregress计算上的奇异值分解(SVD)X0‘* Y0.预测器和响应负载XLYL型系数是通过回归得到的吗X0Y0关于预测分数XS.您可以重构居中数据X0Y0使用XS*XL'XS*YL',分别。

plsregress最初的计算y作为y = Y0 * YL型.按惯例[1]然而,plsregress然后使的每一列正交y的前一列XS因此XS'*YS是一个下三角矩阵。

参考文献

[1] Simples:偏最小二乘回归的另一种方法化学计量学和智能实验室系统18日,没有。3(1993年3月):251-63。https://doi.org/10.1016/0169 - 7439 (93) 85002 - x

[2] 罗曼和妮可·克莱默:《偏最小二乘法概述和最新进展》子空间、潜在结构和特征选择:统计与优化视角研讨会(SLSFS 2005),修订论文选集(计算机科学讲义3940).德国柏林:施普林格出版社,2006,第3940卷,第34-51页。https://doi.org/10.1007/11752790_2

[3] Chong, Il-Gyo, and Chi-Hyuck Jun. <多重共线性存在时一些变量选择方法的表现>化学计量学和智能实验室系统78年,没有。1-2(2005年7月)103-12。https://doi.org/10.1016/j.chemolab.2004.12.011

扩展能力

介绍了R2008a