广义线性模型的套索正规化
广义线性模型套索正则化是什么?
拉索是一种正则化技术。使用lassoglm
:
减少预测的数量在一个广义线性模型。
识别重要的预测因子。
选择冗余预测因子之一。
产生收缩估计与预测错误可能低于普通最小二乘法。
弹性网是一个相关的技术。当你使用它有几个高度相关的变量。lassoglm
当你设置提供了弹性净正规化α
名称-值对之间严格的数量0
和1
。
细节套索和弹性网络计算和算法,明白了广义线性模型套索和弹性。广义线性模型的讨论,请参阅广义线性模型是什么?。
广义线性模型套索和弹性
套索和弹性网的概述
套索是一个估计广义线性模型的正则化技术。套索包括一个惩罚项约束的大小估计系数。因此,它就像岭回归。拉索是一个收缩估计量:它生成系数估计是偏小。然而,一个套索估计可以有较小的误差比一个普通的极大似然估计量,当你把它应用到新数据。
不像岭回归,随着惩罚项的增加,套索技术集更多的系数为零。这意味着套索估计量是一个小模型,用更少的预测因子。因此,套索的另一种选择逐步回归和其他模型选择和降维技术。
弹性网是一个相关的技术。弹性网络类似于一个混合的岭回归和套索正规化。像套索,弹性网可以生成模型减少了产生新鲜感系数。实证研究表明,弹性网络技术可以超越套索与高度相关的预测数据。
定义广义线性模型的套索
非负价值λ,lassoglm
解决问题
这个方程的功能异常是模型的异常适合使用拦截的反应β0和预测系数β。异常的公式取决于
分配
参数你供应lassoglm
。最小化λ处罚异常相当于最大化λ处罚loglikelihood。N是观测的数量。
λ是一个非负正则化参数对应于一个值的
λ
。的参数β0和β是一个标量和向量的长度p,分别。
作为λ增加,非零组件的数量β减少。
套索的问题涉及到l1规范的β,如与弹性网算法。
广义线性模型的弹性网的定义
为α严格在0和1之间,负的λ,弹性网络解决问题
在哪里
弹性净套索时是一样的α= 1。其他的值α,惩罚项Pα(β)之间的插入l1规范的β和方l2规范的β。作为α减少到0,弹性网的方法脊
回归。
引用
[1]Tibshirani, R。通过套索回归收缩和选择。皇家统计学会杂志》的系列B卷。58岁的1号,第288 - 267页,1996年。
[2]邹,h . t . Hastie。通过弹性净正规化和变量选择。皇家统计学会杂志》的系列B, 67卷,2号,第320 - 301页,2005年。
[3]弗里德曼,J。,R. Tibshirani, and T. Hastie.正则化路径对广义线性模型通过坐标下降。统计软件学报,33卷,1号,2010年。https://www.jstatsoft.org/v33/i01
[4]Hastie, T。,R. Tibshirani, and J. Friedman.统计学习的元素,第二版。施普林格,纽约,2008年。
[5]McCullagh, P。,和J. A. Nelder.广义线性模型,第二版。查普曼&大厅/ CRC出版社,1989年。