主要内容

岭回归

描述

例子

B=脊(yXk的收益系数估计岭回归模型预测数据的X和响应y.每一列的B对应于一个特定的脊参数k.缺省情况下,函数进行计算B对中心和缩放后,预测器的均值为0,标准差为1。因为模型不包含常数项,所以不要加一列1sX

例子

B=脊(yXk按比例缩小的中系数估计的比例B.当按比例缩小的1(默认),不恢复系数到原始数据规模。当按比例缩小的0将系数恢复到原始数据的比例。有关更多信息,请参见比例系数

例子

全部折叠

对一系列脊参数进行脊回归,观察系数估计如何变化。

加载乙炔数据集。

负载乙炔

乙炔包含对预测变量的观察x1x2,x3,以及响应变量y

将预测变量相互对照。观察变量之间的相关性。

plotmatrix ((x1, x2) x3))

MATLAB图

例如,请注意x1x3

计算具有相互作用项的多线性模型的系数估计值,用于岭参数的范围。使用x2fx创建交互术语和进行脊线回归。

X = [x1 x2 x3];D = x2fx (X,“互动”);D (: 1) = [];无常数项k = 0:1e-5:5e-3;B =岭(y, D, k);

画出山脊的轨迹。

图绘制(k, B,“线宽”,2) ylim([-100 100])网格包含(“岭参数”) ylabel (“标准化系数”)标题(“岭跟踪”)传说(x1的“x2”“x3”“x1x2”“x1x3”“x2x3”

图中包含一个坐标轴。标题为Ridge Trace的轴包含6个类型为line的对象。这些对象代表x1x2 x3 x1x2 x1x3 x2x3。

估计稳定在地块的右边。注意这个系数x2x3相互作用项在脊参数的值处改变符号 5 1 0 - 4

预测英里每加仑(MPG)值使用岭回归。

加载carbig数据集。

负载carbigX =[加速度重量位移马力];y = MPG;

将数据分解为训练集和测试集。

n =长度(y);rng (“默认”%的再现性c = cvpartition (n,“坚持”, 0.3);idxTrain =培训(c, 1);idxTest = ~ idxTrain;

找出岭回归模型的系数(k = 5)。

k = 5;b =脊(y (idxTrain) X (idxTrain:), k, 0);

预测英里/加仑使用模型的测试数据的值。

yhat = b(1) + X(idxTest,:)*b(2:end);

使用参考线将预测值与实际每加仑(MPG)英里值进行比较。

散射(y (idxTest), yhat)情节(y (idxTest), y (idxTest))包含(“实际MPG”) ylabel (“预测MPG”)举行

图中包含一个坐标轴。轴包含两个散点和线的对象。

输入参数

全部折叠

响应数据,指定为n-乘1数字向量,其中n为观察次数。

数据类型:|

预测器数据,指定为n——- - - - - -p数字矩阵。的行X对应于n观察,和列X对应于p预测因子。

数据类型:|

脊参数,指定为数字向量。

例子:[0.2 0.3 0.4 0.5]

数据类型:|

缩放标志,决定系数是否估计B恢复到原始数据的比例,指定为01.如果按比例缩小的0,然后执行这个额外的转换。在这种情况下,B包含p+1每个值的系数k,第一行为B对应于模型中的常数项。如果按比例缩小的1,然后软件省略额外的转换,并且B包含p没有常数项的系数。

输出参数

全部折叠

系数估计,以数字矩阵的形式返回。的行B对应于X,和列B对应于山脊参数k

如果按比例缩小的1,然后B是一个p——- - - - - -矩阵,元素的个数是多少k.如果按比例缩小的0,然后B是(p+1)———矩阵。

更多关于

全部折叠

岭回归

岭回归是一种估计线性模型系数的方法,其中包括线性相关的预测因子。

多元线性回归模型的系数估计依赖于模型项的独立性。当术语是相关的和列的设计矩阵X近似线性相关,矩阵(XTX1接近于单数。因此,求最小二乘估计

β X T X 1 X T y

对观察到的响应中的随机误差高度敏感吗y,产生了很大的差异。这种多重共线性的情况可能会出现,例如,当你收集数据时没有实验设计。

岭回归通过使用估计回归系数来解决多重共线性问题

β X T X + k 1 X T y

在哪里k是脊参数和是单位矩阵。小,正的值k改善问题的条件和减少估计的方差。当有偏差时,脊估计方差的减少往往导致更小的均方误差时,与最小二乘估计。

比例系数

岭回归模型的系数估计的比例取决于值按比例缩小的输入参数。

假设脊参数k等于0。返回的系数,当按比例缩小的等于1,是估计的b1在多元线性模型中

y- - - - - -μyb11z1+……+bp1zp+ε

在哪里z= (x- - - - - -μ) /σ是中心化和规模化的预测因子,y- - - - - -μy是中心反应吗ε是一个误差项。您可以将模型重写为

yb00+b10x1+……+bp0xp+ε

b 0 0 μ y 1 p b 1 μ σ b 0 b 1 σ .的b0Terms对应于返回的系数按比例缩小的等于0

更一般地说,对于任何值k,如果B1 =脊(y, X, k, 1),然后

m =意味着(X);s =性病(X, 0,1) ';B1_scaled = B1. / s;B0 =[意味着(y) - m * B1_scaled;B1_scaled]

在哪里B0 =脊(y, X, k, 0)

提示

  • 对待Xy作为缺失值。从岭回归拟合中省略缺失值的观测值。

  • 一般来说,设置按比例缩小的等于1生成系数按相同比例显示的图。看到岭回归例如,使用脊迹图,其中回归系数显示为脊参数的函数。当做出预测时,设定按比例缩小的等于0.例如,请参见使用岭回归预测值

选择功能

  • 脊、拉索和弹性网正则化都是估计线性模型系数而不考虑大系数的方法。惩罚的类型取决于方法(见更多关于更多的细节)。执行套索或弹性网正规化,使用套索代替。

  • 如果您有高维的完整或稀疏预测数据,您可以使用fitrlinear而不是.当使用fitrlinear,指定“正规化”、“岭”名称-值对的论点。设置的值“λ”将名称-值对参数设置为所选脊形参的向量。fitrlinear返回一个训练过的线性模型Mdl.您可以访问存储在β模型的属性Mdl。β

参考文献

Hoerl, A. E.和R. W. Kennard。岭回归:非正交问题的有偏估计。技术计量学.第12卷第1期,1970年,第55-67页。

Hoerl, A. E.和R. W. Kennard。岭回归:非正交问题的应用。技术计量学.第12卷,第1期,1970年,69-82页。

Marquardt, D. W.“广义逆、岭回归、有偏线性估计和非线性估计”。技术计量学.第12卷,第3期,1970年,591-612页。

马夸特,d。W。和r。d。Snee。"实践中的脊回归"美国统计学家.1975年第29卷第1期,第3-20页。

之前介绍过的R2006a