套索是一种正规化技术。使用套索
:
减少回归模型中预测因子的数量。
识别重要的预测因子。
在冗余预测器中进行选择。
产生收缩估计值,其预测误差可能比普通最小二乘低。
弹性网是一项相关技术。当你有几个高度相关的变量时,使用弹性网。套索
提供弹性网正规化时,您设置α
名称-值对严格限定在一个数字之间0
和1
.
看到套索和弹性网细节.
有关回归集合的套索正则化,请参阅规范
.
Lasso是一种用于执行线性回归的正则化技术。Lasso包含一个惩罚项,限制了估计系数的大小。因此,它就像岭回归.拉索是一个收缩估计量:它生成的系数估计偏小。然而,当你将lasso估计值应用于新数据时,它可以比普通最小二乘估计值有更小的均方误差。
与岭回归不同,随着惩罚项的增加,lasso将更多的系数设为零。这意味着lasso估计量是一个较小的模型,具有较少的预测量。因此,套索是一种替代逐步回归以及其他模型选择和降维技术。
弹性网是一项相关技术。弹性网是脊回归和套索正则化的混合体。像套索一样,弹性网可以通过生成零值系数来生成简化模型。经验研究表明,弹性网技术可以在预测高度相关的数据上优于套索技术。
的套索技术解决了这个正则化问题。对于给定的值λ,为非负参数,套索
解决问题
N为观察次数。
y我在观察时是否有反应我.
x我数据是向量吗p在观测值我.
λ正正则化参数是否对应于的一个值λ
.
的参数β0和β标量和p向量分别。
作为λ增加,非零分量的数目β减少。
套索问题涉及到l1规范的β,与弹性网算法相比。
的弹性网技术解决了这个正则化问题。对于一个α严格地在0和1之间,并且是非负的λ,弹性网就解决了这个问题
在哪里
弹力网与套索是一样的α= 1。作为α缩小到0,弹性网接近脊
回归。的其他值α,罚则Pα(β)之间插入l1规范的β和方l2规范的β.
[1] Tibshirani, R。"通过套索的回归收缩和选择"皇家统计学会杂志,系列B, Vol . 58, No. 1, pp. 267-288, 1996。
邹,H.和T.快点。“通过弹性网进行规则化和变量选择。”皇家统计学会学报,B辑,第67卷,第2期,301-320页,2005。
[3] Friedman, J., R. Tibshirani, T. Hastie。"通过坐标下降的广义线性模型的正则化路径"统计软件杂志,2010年第33卷第1期。https://www.jstatsoft.org/v33/i01
Hastie, T., R. Tibshirani, J. Friedman。统计学习的要素,第二版。施普林格,纽约,2008。
套索
|lassoglm
|fitrlinear
|lassoPlot
|脊