主要内容

套索和弹性网

什么是套索和弹力网?

套索是一种正规化技术。使用套索:

  • 减少回归模型中预测因子的数量。

  • 识别重要的预测因子。

  • 在冗余预测器中进行选择。

  • 产生收缩估计值,其预测误差可能比普通最小二乘低。

弹性网是一项相关技术。当你有几个高度相关的变量时,使用弹性网。套索提供弹性网正规化时,您设置α名称-值对严格限定在一个数字之间01

看到套索和弹性网细节

有关回归集合的套索正则化,请参阅规范

套索和弹性网细节

概述套索和弹性网

Lasso是一种用于执行线性回归的正则化技术。Lasso包含一个惩罚项,限制了估计系数的大小。因此,它就像岭回归.拉索是一个收缩估计量:它生成的系数估计偏小。然而,当你将lasso估计值应用于新数据时,它可以比普通最小二乘估计值有更小的均方误差。

与岭回归不同,随着惩罚项的增加,lasso将更多的系数设为零。这意味着lasso估计量是一个较小的模型,具有较少的预测量。因此,套索是一种替代逐步回归以及其他模型选择和降维技术。

弹性网是一项相关技术。弹性网是脊回归和套索正则化的混合体。像套索一样,弹性网可以通过生成零值系数来生成简化模型。经验研究表明,弹性网技术可以在预测高度相关的数据上优于套索技术。

套索的定义

套索技术解决了这个正则化问题。对于给定的值λ,为非负参数,套索解决问题

最小值 β 0 β 1 2 N 1 N y β 0 x T β 2 + λ j 1 p | β j |

  • N为观察次数。

  • y在观察时是否有反应

  • x数据是向量吗p在观测值

  • λ正正则化参数是否对应于的一个值λ

  • 的参数β0β标量和p向量分别。

作为λ增加,非零分量的数目β减少。

套索问题涉及到l1规范的β,与弹性网算法相比。

弹性网的定义

弹性网技术解决了这个正则化问题。对于一个α严格地在0和1之间,并且是非负的λ,弹性网就解决了这个问题

最小值 β 0 β 1 2 N 1 N y β 0 x T β 2 + λ P α β

在哪里

P α β 1 α 2 β 2 2 + α β 1 j 1 p 1 α 2 β j 2 + α | β j |

弹力网与套索是一样的α= 1。作为α缩小到0,弹性网接近回归。的其他值α,罚则Pαβ)之间插入l1规范的β和方l2规范的β

参考文献

[1] Tibshirani, R。"通过套索的回归收缩和选择"皇家统计学会杂志,系列B, Vol . 58, No. 1, pp. 267-288, 1996。

邹,H.和T.快点。“通过弹性网进行规则化和变量选择。”皇家统计学会学报,B辑,第67卷,第2期,301-320页,2005。

[3] Friedman, J., R. Tibshirani, T. Hastie。"通过坐标下降的广义线性模型的正则化路径"统计软件杂志,2010年第33卷第1期。https://www.jstatsoft.org/v33/i01

Hastie, T., R. Tibshirani, J. Friedman。统计学习的要素,第二版。施普林格,纽约,2008。

另请参阅

||||

相关的话题