主要内容

套索和弹力网

什么是套索和弹力网?

套索是一种正则化技术。使用套索:

  • 减少回归模型中预测因子的数量。

  • 确定重要的预测因素。

  • 在冗余预测器中选择。

  • 用可能比普通最小二乘更低的预测误差进行收缩估算。

弹性网是一种相关技术。当你有几个高度相关的变量时,使用弹性网络。套索属性时提供弹性网络正则化α名称-值对严格介于一个数字之间0而且1

看到套索和弹性网细节

有关回归集合的套索正则化,请参见规范

套索和弹性网细节

套索和弹力网概述

Lasso是一种执行线性回归的正则化技术。Lasso包括一个惩罚项,限制估计系数的大小。因此,它类似于岭回归.套索是收缩估计量:它产生的系数估计偏小。然而,当你将套索估计器应用于新数据时,它比普通的最小二乘估计器具有更小的均方误差。

与山脊回归不同,随着惩罚项的增加,套索设置更多的系数为零。这意味着套索估计器是一个更小的模型,具有更少的预测因子。因此,套索是一种替代逐步回归以及其他模型选择和降维技术。

弹性网是一种相关技术。弹性网是脊回归和套索正则化的混合。像套索一样,弹性网可以通过生成零值系数来生成简化模型。实证研究表明,弹性网技术在预测因子高度相关的数据上优于套索。

套索的定义

套索技术解决了这个正则化问题。对于给定的值λ,非负参数,套索解决问题

最小值 β 0 β 1 2 N 1 N y β 0 x T β 2 + λ j 1 p | β j |

  • N是观测的数量。

  • y观察时的反应是什么

  • x数据是向量吗p观察值

  • λ正正则化参数是否对应于的一个值λ

  • 的参数β0而且β都是标量p向量分别。

作为λ增加,非零组件的数目β减少。

套索问题涉及l1规范的β,与弹性网算法相比。

弹性网的定义

弹性网技术解决了这个正则化问题。对于一个α严格在0到1之间,而且是非负的λ弹性网解决了这一问题

最小值 β 0 β 1 2 N 1 N y β 0 x T β 2 + λ P α β

在哪里

P α β 1 α 2 β 2 2 + α β 1 j 1 p 1 α 2 β j 2 + α | β j |

弹力网与套索时一样α= 1。作为α向0收缩,弹性网接近回归。对于其他值α,罚款期限Pαβ)在l1规范的β平方l2规范的β

参考文献

[1]蒂布希拉尼,R。"通过套索回归收缩和选择"皇家统计学会杂志,B辑,第58卷,第1期,第267-288页,1996年。

邹市明,H.和T.黑斯蒂。"通过弹性网进行正则化和变量选择"皇家统计学会杂志B辑Vol. 67 No. 2, pp. 301-320, 2005。

[3]弗里德曼,J., R.蒂布谢拉尼,T.黑斯蒂。通过坐标下降的广义线性模型的正则化路径。统计软件杂志,第33卷,2010年第1期https://www.jstatsoft.org/v33/i01

哈斯蒂、T.、R.蒂布谢拉尼和J.弗里德曼。统计学习的要素,第二版。施普林格,纽约,2008年。

另请参阅

||||

相关的话题