主要内容

广义线性模型的套索正规化

广义线性模型套索正则化是什么?

拉索是一种正则化技术。使用lassoglm:

  • 减少预测的数量在一个广义线性模型。

  • 识别重要的预测因子。

  • 选择冗余预测因子之一。

  • 产生收缩估计与预测错误可能低于普通最小二乘法。

弹性网是一个相关的技术。当你使用它有几个高度相关的变量。lassoglm当你设置提供了弹性净正规化α名称-值对之间严格的数量01

细节套索和弹性网络计算和算法,明白了广义线性模型套索和弹性。广义线性模型的讨论,请参阅广义线性模型是什么?

广义线性模型套索和弹性

套索和弹性网的概述

套索是一个估计广义线性模型的正则化技术。套索包括一个惩罚项约束的大小估计系数。因此,它就像岭回归。拉索是一个收缩估计量:它生成系数估计是偏小。然而,一个套索估计可以有较小的误差比一个普通的极大似然估计量,当你把它应用到新数据。

不像岭回归,随着惩罚项的增加,套索技术集更多的系数为零。这意味着套索估计量是一个小模型,用更少的预测因子。因此,套索的另一种选择逐步回归和其他模型选择和降维技术。

弹性网是一个相关的技术。弹性网络类似于一个混合的岭回归和套索正规化。像套索,弹性网可以生成模型减少了产生新鲜感系数。实证研究表明,弹性网络技术可以超越套索与高度相关的预测数据。

定义广义线性模型的套索

非负价值λ,lassoglm解决问题

最小值 β 0 , β ( 1 N 异常 ( β 0 , β ) + λ j = 1 p | β j | )

  • 这个方程的功能异常是模型的异常适合使用拦截的反应β0和预测系数β。异常的公式取决于分配参数你供应lassoglm。最小化λ处罚异常相当于最大化λ处罚loglikelihood。

  • N是观测的数量。

  • λ是一个非负正则化参数对应于一个值的λ

  • 的参数β0β是一个标量和向量的长度p,分别。

作为λ增加,非零组件的数量β减少。

套索的问题涉及到l1规范的β,如与弹性网算法。

广义线性模型的弹性网的定义

α严格在0和1之间,负的λ,弹性网络解决问题

最小值 β 0 , β ( 1 N 异常 ( β 0 , β ) + λ P α ( β ) ) ,

在哪里

P α ( β ) = ( 1 α ) 2 β 2 2 + α β 1 = j = 1 p ( ( 1 α ) 2 β j 2 + α | β j | )

弹性净套索时是一样的α= 1。其他的值α,惩罚项Pα(β)之间的插入l1规范的β和方l2规范的β。作为α减少到0,弹性网的方法回归。

引用

[1]Tibshirani, R。通过套索回归收缩和选择。皇家统计学会杂志》的系列B卷。58岁的1号,第288 - 267页,1996年。

[2]邹,h . t . Hastie。通过弹性净正规化和变量选择。皇家统计学会杂志》的系列B, 67卷,2号,第320 - 301页,2005年。

[3]弗里德曼,J。,R. Tibshirani, and T. Hastie.正则化路径对广义线性模型通过坐标下降。统计软件学报,33卷,1号,2010年。https://www.jstatsoft.org/v33/i01

[4]Hastie, T。,R. Tibshirani, and J. Friedman.统计学习的元素,第二版。施普林格,纽约,2008年。

[5]McCullagh, P。,和J. A. Nelder.广义线性模型,第二版。查普曼&大厅/ CRC出版社,1989年。