Lasso是一种正则化技术。使用套索
:
减少回归模型中预测因子的数量。
识别重要的预测因子。
在冗余谓词中进行选择。
农产品收缩估计与可能低于普通最小二乘法的预测误差。
弹性网是一种相关的技术。当你有几个高度相关的变量时,使用弹性网络。套索
设置时提供弹性网络正则化α
名称-值对与严格介于两者之间的数字0
和1
。
看到套索和弹性网络详细信息。
有关回归系综的套索正则化,请参阅规范
。
Lasso是一种用于执行线性回归的正则化技术。Lasso包含一个约束估计系数大小的惩罚项。因此,它就像岭回归。拉索是一个收缩估计:它产生的系数估计值偏小。然而,lasso估计器在应用于新数据时,其平均平方误差可能比普通最小二乘估计器小。
与脊回归不同,随着惩罚项的增加,lasso将更多的系数设置为零。这意味着lasso估计器是一个更小的模型,具有更少的预测器。因此,lasso是另一种选择逐步回归以及其他模型选择和降维技术。
弹性网是一种相关的技术。弹性网是脊线回归和套索正则化的混合。与lasso类似,elastic net可以通过生成零值系数来生成简化模型。经验研究表明,在具有高度相关预测因子的数据上,弹性网络技术可以超越lasso。
的套索技术解决了这个正则化问题。对于给定的值λ,非负参数,套索
解决问题
N为观测值个数。
y我这个反应是观察得来的吗我。
x我数据是向量吗p在观测值我。
λ一个正的正则化参数是否对应一个值λ
。
的参数β0和β标量和p向量分别。
作为λ的非零分量的数目β减少。
套索问题涉及到l1规范的β,与弹性网格算法进行对比。
的弹力网技术解决了这个正则化问题。对于一个α严格0和1,以及一个非负之间λ,弹力网解决问题
在哪里
弹性网与套索时是一样的α= 1。作为α向0收缩,弹性网接近脊
回归。对于其他值α,惩罚项Pα(β)之间插入l1规范的β和方l2规范的β。
[1]Tibshirani, R。回归收缩和选择通过套索。《皇家统计学会期刊》,B辑,第58卷,第1期,第267-288页,1996年。
[2]邹,H.和T.哈斯蒂。正则化,并通过弹性网络变量选择。《皇家统计学会期刊》,B辑,第67卷,第2期,第301-320页,2005年。
[3]弗里德曼,J., R. Tibshirani和T. Hastie。广义线性模型的坐标下降正则化路径。统计软件杂志,第33卷,第1期,2010年。https://www.jstatsoft.org/v33/i01
[4] Hastie, T., R. Tibshirani和J. Friedman。统计学习的要素,第二版。施普林格,纽约,2008年。
fitrlinear
|套索
|lassoPlot
|lassoglm
|脊