套索和弹性网

什么是套索和弹性网络?

Lasso是一种正则化技术。使用套索:

  • 减少回归模型中预测因子的数量。

  • 识别重要的预测因子。

  • 在冗余谓词中进行选择。

  • 农产品收缩估计与可能低于普通最小二乘法的预测误差。

弹性网是一种相关的技术。当你有几个高度相关的变量时,使用弹性网络。套索设置时提供弹性网络正则化α名称-值对与严格介于两者之间的数字01

看到套索和弹性网络详细信息

有关回归系综的套索正则化,请参阅规范

套索和弹性网络详细信息

套索和弹性网概述

Lasso是一种用于执行线性回归的正则化技术。Lasso包含一个约束估计系数大小的惩罚项。因此,它就像岭回归。拉索是一个收缩估计:它产生的系数估计值偏小。然而,lasso估计器在应用于新数据时,其平均平方误差可能比普通最小二乘估计器小。

与脊回归不同,随着惩罚项的增加,lasso将更多的系数设置为零。这意味着lasso估计器是一个更小的模型,具有更少的预测器。因此,lasso是另一种选择逐步回归以及其他模型选择和降维技术。

弹性网是一种相关的技术。弹性网是脊线回归和套索正则化的混合。与lasso类似,elastic net可以通过生成零值系数来生成简化模型。经验研究表明,在具有高度相关预测因子的数据上,弹性网络技术可以超越lasso。

套索的定义

套索技术解决了这个正则化问题。对于给定的值λ,非负参数,套索解决问题

最小值 β 0 , β ( 1 2 N = 1 N ( y β 0 x T β ) 2 + λ j = 1 p | β j | )

  • N为观测值个数。

  • y这个反应是观察得来的吗

  • x数据是向量吗p在观测值

  • λ一个正的正则化参数是否对应一个值λ

  • 的参数β0β标量和p向量分别。

作为λ的非零分量的数目β减少。

套索问题涉及到l1规范的β,与弹性网格算法进行对比。

弹性网的定义

弹力网技术解决了这个正则化问题。对于一个α严格0和1,以及一个非负之间λ,弹力网解决问题

最小值 β 0 , β ( 1 2 N = 1 N ( y β 0 x T β ) 2 + λ P α ( β ) ) ,

在哪里

P α ( β ) = ( 1 α ) 2 β 2 2 + α β 1 = j = 1 p ( ( 1 α ) 2 β j 2 + α | β j | )

弹性网与套索时是一样的α= 1。作为α向0收缩,弹性网接近回归。对于其他值α,惩罚项Pα(β)之间插入l1规范的β和方l2规范的β

参考

[1]Tibshirani, R。回归收缩和选择通过套索。《皇家统计学会期刊》,B辑,第58卷,第1期,第267-288页,1996年。

[2]邹,H.和T.哈斯蒂。正则化,并通过弹性网络变量选择。《皇家统计学会期刊》,B辑,第67卷,第2期,第301-320页,2005年。

[3]弗里德曼,J., R. Tibshirani和T. Hastie。广义线性模型的坐标下降正则化路径。统计软件杂志,第33卷,第1期,2010年。https://www.jstatsoft.org/v33/i01

[4] Hastie, T., R. Tibshirani和J. Friedman。统计学习的要素,第二版。施普林格,纽约,2008年。

另请参阅

||||

相关话题