主要内容gydF4y2Ba

时间序列回归V:预测因子选择gydF4y2Ba

这个例子展示了如何为多个线性回归模型选择具有高统计显著性的简约预测因子集。这是关于时间序列回归的一系列示例中的第五个,在前面的示例中进行了演示。gydF4y2Ba

简介gydF4y2Ba

多元线性回归(MLR)模型的“最佳”预测因子是什么?如果没有理论基础来回答这个问题,模型可能(至少在最初阶段)包含多种“潜在”预测因子,从而降低OLS估计的质量,并混淆对显著影响的识别。gydF4y2Ba

理想情况下,预测器集应该具有以下特征:gydF4y2Ba

  • 每个预测因素都会导致反应的变化(必要性和简约性)gydF4y2Ba

  • 没有额外的预测因素导致响应的变化(充分性)gydF4y2Ba

  • 没有额外的预测因子显著改变系数估计值(稳定性)gydF4y2Ba

然而,经济建模的现实使得找到这样一个集合具有挑战性。首先,不可避免地存在被忽略的重要预测因子,这导致模型具有偏差和低效的系数估计。本系列中的其他示例讨论了相关的挑战,例如预测因子之间的相关性,预测因子与省略变量之间的相关性,有限的样本变异,非典型数据等等,所有这些都对纯统计选择“最佳”预测因子提出了问题。gydF4y2Ba

自动选择技术使用统计显著性来代替理论显著性,尽管它有缺点。这些技术通常通过最小化预测误差来选择一组“最佳”预测因子。优化约束用于指示所需或排除的预测器,或设置最终模型的大小。gydF4y2Ba

在前面的例子中gydF4y2Ba时间序列回归IV:伪回归gydF4y2Ba,有人认为,某些预测因子的转换可能有利于产生更准确的预测模型。选择预测gydF4y2Ba之前gydF4y2Ba转换具有保留原始单位的优势,这对于识别一个既有意义又有统计意义的子集可能很重要。通常,选择和转换技术一起使用,建模目标是实现一个简单但仍然准确的响应预测模型。gydF4y2Ba

为了研究选择技术,我们从加载前一个示例中的相关数据开始gydF4y2Ba时间序列回归IV:伪回归gydF4y2Ba:gydF4y2Ba

负载gydF4y2BaData_TSReg4gydF4y2Ba

作为参考,我们在层次和差异上展示了具有一整套预测因子的模型:gydF4y2Ba

M0gydF4y2Ba
M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21,误差自由度:16均方根误差:0.0763 r平方:0.621,调整后r平方:0.526 f统计量vs常数模型:6.56,p值= 0.00253gydF4y2Ba
MD1gydF4y2Ba
MD1 =线性回归模型:D1IGD ~ 1 + AGE + D1BBB + D1CPF + D1SPR估计系数:估计SE tStat pValue _________ _________ ________ _________(截距)-0.089492 0.10843 -0.82535 0.4221 AGE 0.015193 0.012574 1.2083 0.24564 D1BBB -0.023538 0.020066 -1.173 0.25909 D1CPF -0.015707 0.0046294 -3.393 0.0040152 D1SPR -0.03663 0.04017 -0.91187 0.37626观测数:20,误差自由度:15均方根误差:0.106 r -平方:0.49,调整后r -平方:0.354 f统计量vs常数模型:3.61,p值= 0.0298gydF4y2Ba

逐步回归gydF4y2Ba

预测器选择使用了许多方法gydF4y2BatgydF4y2Ba-估计系数的统计信息,以及gydF4y2BaFgydF4y2Ba-统计系数组,以衡量统计显著性。在使用这些统计数据时,必须记住,忽略具有不重要的个人贡献的预测因素可能会隐藏重要的联合贡献。同时,gydF4y2BatgydF4y2Ba而且gydF4y2BaFgydF4y2Ba在共线性或趋势变量存在时,统计数据可能不可靠。因此,数据问题应该在预测器选择之前解决。gydF4y2Ba

逐步回归gydF4y2Ba是一个系统的程序,添加和删除MLR预测基于gydF4y2BaFgydF4y2Ba统计数据。该过程从潜在预测因子的初始子集开始,包括任何被认为理论上重要的预测因子。在每一步,gydF4y2BapgydF4y2Ba的-值gydF4y2BaFgydF4y2Ba-statistic(即a的平方gydF4y2BatgydF4y2Ba-统计与相同gydF4y2BapgydF4y2Ba-value)用于比较有或没有某个潜在预测因子的模型。如果一个预测器目前不在模型中,零假设是,如果将它添加到模型中,它的系数将为零。如果有足够的证据拒绝原假设,则将预测器添加到模型中。相反,如果一个预测器目前在模型中,零假设是它的系数为零。如果没有足够的证据来拒绝零假设,则将预测因子从模型中移除。在任何步骤中,该过程都可以删除已添加的预测器或添加已删除的预测器。gydF4y2Ba

逐步回归如下:gydF4y2Ba

  1. 拟合初始模型。gydF4y2Ba

  2. 如果模型中没有任何预测因子gydF4y2BapgydF4y2Ba-小于入口公差的值(也就是说,如果它们添加到模型中不太可能是零系数),则添加最小的值gydF4y2BapgydF4y2Ba-value并重复此步骤;否则,请执行步骤3。gydF4y2Ba

  3. 如果模型中有任何预测因子gydF4y2BapgydF4y2Ba-值大于出口公差(也就是说,如果不太可能拒绝零系数的假设),则删除最大的值gydF4y2BapgydF4y2Ba-value,执行步骤2;否则,结束。gydF4y2Ba

根据初始模型和预测器移动的顺序,该过程可能会从同一组潜在预测器构建不同的模型。当没有单个步骤改进模型时,该过程终止。然而,不能保证不同的初始模型和不同的步骤序列不会导致更好的拟合。从这个意义上说,逐步模型是局部最优的,但可能不是全局最优的。然而,该程序在避免对潜在预测因子的每个可能子集进行评估方面是有效的,并且在实践中经常产生有用的结果。gydF4y2Ba

这个函数gydF4y2BastepwiselmgydF4y2Ba(相当于静态方法gydF4y2BaLinearModel.stepwisegydF4y2Ba)自动进行逐步回归。默认情况下,它在模型中包含一个常量,从一个空的预测器集开始,并在上使用入口/出口公差gydF4y2BaFgydF4y2Ba统计gydF4y2BapgydF4y2Ba-值为0.05 / 0.10。适用于以下情况gydF4y2BastepwiselmgydF4y2Ba到原始的潜在预测因子集,设置的上限gydF4y2Ba线性gydF4y2Ba在搜索具有最低均方根误差(RMSE)的模型时,通过不包括平方项或交互项来限制程序:gydF4y2Ba

M0SW = stepwism(数据表,gydF4y2Ba“上”gydF4y2Ba,gydF4y2Ba“线性”gydF4y2Ba)gydF4y2Ba
1.添加CPF, FStat = 6.22, pValue = 0.022017添加BBB, FStat = 10.4286, pValue = 0.00465235gydF4y2Ba
M0SW =线性回归模型:IGD ~ 1 + BBB + CPF估计系数:估计SE tStat pValue _________ _________ _______ __________(截距)-0.087741 0.071106 -1.234 0.23309 BBB 0.0074389 0.0023035 3.2293 0.0046523 CPF -0.016187 0.0039682 -4.0792 0.00070413观测数:21,误差自由度:18均方根误差:0.0808 r平方:0.523,调整r平方:0.47 f统计量vs常数模型:9.87,p值= 0.00128gydF4y2Ba

显示器显示终止时的活动预测器。的gydF4y2BaFgydF4y2Ba-检验选择两个联合显著性最优的预测因子,gydF4y2BaBBBgydF4y2Ba而且gydF4y2Ba论坛gydF4y2Ba.这些不是最显著个体的预测因子gydF4y2BatgydF4y2Ba统计数据,gydF4y2Ba年龄gydF4y2Ba而且gydF4y2Ba论坛gydF4y2Ba,在完整的模型gydF4y2BaM0gydF4y2Ba.简化模型的RMSE为0.0808,与的RMSE相当gydF4y2BaM0gydF4y2Ba0.0763点。轻微的增长是节俭的代价。gydF4y2Ba

为了进行比较,我们将该过程应用于不同预测因子的完整集(与gydF4y2Ba年龄gydF4y2Baundifferenced)gydF4y2BaMD1gydF4y2Ba:gydF4y2Ba

MD1SW = stepwiselm(D1X0,D1y0,gydF4y2Ba“上”gydF4y2Ba,gydF4y2Ba“线性”gydF4y2Ba,gydF4y2Ba“VarNames”gydF4y2Ba(predNamesD1 respNameD1])gydF4y2Ba
1.添加D1CPF, FStat = 9.7999, pValue = 0.0057805gydF4y2Ba
MD1SW =线性回归模型:D1IGD ~ 1 + D1CPF估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)0.0097348 0.024559 0.39638 0.69649 D1CPF -0.014783 0.0047222 -3.1305 0.0057805观测数:20,误差自由度:18均方根误差:0.109 r平方:0.353,调整r平方:0.317 f统计量vs常数模型:9.8,p值= 0.00578gydF4y2Ba

简化模型的RMSE为0.109,再次与gydF4y2BaMD1gydF4y2Ba0.106点。逐步的程序将模型缩减为一个单一的预测器,gydF4y2BaD1CPFgydF4y2Ba它的体积要小得多gydF4y2BapgydF4y2Ba价值。gydF4y2Ba

当然,RMSE并不能保证预测的性能,尤其是在小样本的情况下。因为在信用违约模型中包含老化效应是有理论依据的gydF4y2Ba[5]gydF4y2Ba,我们可能要强行gydF4y2Ba年龄gydF4y2Ba进入模型。这是通过固定来完成的gydF4y2Ba年龄gydF4y2Ba作为初始模型和所有模型的下界:gydF4y2Ba

MD1SWA = stepwiselm(D1X0,D1y0,gydF4y2Ba“D1IGD ~年龄”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“低”gydF4y2Ba,gydF4y2Ba“D1IGD ~年龄”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“上”gydF4y2Ba,gydF4y2Ba“线性”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“VarNames”gydF4y2Ba(predNamesD1 respNameD1])gydF4y2Ba
1.添加D1CPF, FStat = 10.9238, pValue = 0.00418364gydF4y2Ba
MD1SWA =线性回归模型:D1IGD ~ 1 + AGE + D1CPF估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.11967 0.10834 -1.1047 0.2847 AGE 0.015463 0.012617 1.2255 0.23708 D1CPF -0.015523 0.0046967 -3.3051 0.0041836观测数:20,误差自由度:17均方根误差:0.108 r平方:0.405,调整r平方:0.335 f统计量vs常数模型:5.79,p值= 0.0121gydF4y2Ba

RMSE略有降低,突出了搜索的本地性质。出于这个原因,建议进行多次逐步搜索,从空的初始模型向前移动,从完整的初始模型向后移动,同时固定任何理论上重要的预测因子。局部极小值的比较,在理论的背景下,产生最可靠的结果。gydF4y2Ba

可以使用函数更详细地检查逐步回归过程gydF4y2Ba逐步gydF4y2Ba,允许在每一步进行交互,以及功能gydF4y2BaExample_StepwiseTracegydF4y2Ba,显示整个选择过程中系数估计的历史。gydF4y2Ba

信息标准gydF4y2Ba

逐步回归比较嵌套模型,使用gydF4y2BaFgydF4y2Ba-等同于似然比测试的测试。要比较不是彼此扩展或限制的模型,gydF4y2Ba信息标准gydF4y2Ba(IC)是常用的。有几种常见的变种,但都试图平衡样本内拟合的测量与增加模型系数的惩罚。赤池信息准则(AIC)和贝叶斯信息准则(BIC)的计算采用gydF4y2BaModelCriteriongydF4y2Ba方法gydF4y2BaLinearModelgydF4y2Ba类。我们在水平和差异上使用完整的预测因子来比较度量:gydF4y2Ba

AIC0 = m . modelcriterion . aicgydF4y2Ba
Aic0 = -44.1593gydF4y2Ba
BIC0 = m . modelcriterion . bicgydF4y2Ba
Bic0 = -38.9367gydF4y2Ba
AICD1 = md1 . modelcriteria . aicgydF4y2Ba
Aicd1 = -28.7196gydF4y2Ba
BICD1 = md1 . modelcriteria . bicgydF4y2Ba
Bicd1 = -23.7410gydF4y2Ba

由于两个模型估计的系数数量相同,AIC和BIC更有利gydF4y2BaM0gydF4y2Ba,具有较低的RMSE。gydF4y2Ba

我们也可以比较一下gydF4y2BaMD1gydF4y2Ba对于逐步回归得到的最佳简化模型,gydF4y2BaMD1SWAgydF4y2Ba:gydF4y2Ba

AICD1SWA = md1sw . modelcriteria . aicgydF4y2Ba
Aicd1swa = -29.6239gydF4y2Ba
BICD1SWA = md1sw . modelcriteria . bicgydF4y2Ba
Bicd1swa = -26.6367gydF4y2Ba

由于较少的系数估计,这两个度量都减少了,但模型仍然不能弥补相对于RMSE的增加gydF4y2BaM0gydF4y2Ba,这是由于对假回归进行修正而产生的。gydF4y2Ba

交叉验证gydF4y2Ba

另一种常见的模型比较技术是gydF4y2Ba交叉验证gydF4y2Ba.像信息标准一样,交叉验证可用于比较非嵌套模型,并对过拟合的模型进行惩罚。不同之处在于,交叉验证是在样本外预测性能的背景下评估模型,而不是在样本内拟合。gydF4y2Ba

在标准的交叉验证中,数据被随机分成gydF4y2Ba训练集gydF4y2Ba和一个gydF4y2Ba测试集gydF4y2Ba.用训练集估计模型系数,然后用于预测测试集中的响应值。训练集和测试集被随机打乱,并且这个过程是重复进行的。平均而言,所有测试集的小预测误差表明模型预测器具有良好的预测性能。不需要像信息准则那样调整系数的数量,因为使用不同的数据进行拟合和估计。过度拟合在预测性能中变得很明显。gydF4y2Ba

交叉验证是“分割样本”或“坚持”技术的推广,其中仅使用单个子集来估计预测误差。有统计证据表明,交叉验证对于小数据集来说是一个更好的过程gydF4y2Ba[2]gydF4y2Ba.渐近地,最小化线性模型的交叉验证误差等同于最小化AIC或BICgydF4y2Ba[6]gydF4y2Ba,gydF4y2Ba[7]gydF4y2Ba.gydF4y2Ba

对于时间序列数据,该过程有一些复杂性。时间序列数据通常不是独立的,因此从时间库的任何地方采集的随机训练集可能与随机测试集相关。在这种情况下,交叉验证的行为可能不稳定gydF4y2Ba[3]gydF4y2Ba.一种解决方案是测试gydF4y2Ba lgydF4y2Ba 这样的观察时间gydF4y2Ba tgydF4y2Ba 1gydF4y2Ba 是否与当时的观察结果不相关gydF4y2Ba tgydF4y2Ba 2gydF4y2Ba 为gydF4y2Ba |gydF4y2Ba tgydF4y2Ba 1gydF4y2Ba -gydF4y2Ba tgydF4y2Ba 2gydF4y2Ba |gydF4y2Ba >gydF4y2Ba lgydF4y2Ba (参见示例gydF4y2Ba时间序列回归VI:剩余诊断gydF4y2Ba),然后选择分离足够的训练集和测试集。另一种解决方案是使用足够多的测试集,这样相关效应就会被随机抽样冲掉。可以使用不同大小的测试集重复该过程,并且可以评估结果的敏感性。gydF4y2Ba

标准交叉验证由gydF4y2BacrossvalgydF4y2Ba函数。默认情况下,数据被随机划分为10个子样本,每个子样本用作一次测试集(10次交叉验证)。然后计算测试之间的平均MSE。以下是比较gydF4y2BaM0gydF4y2Ba来gydF4y2BaMD1SWAgydF4y2Ba.因为数据有大约20个观测值(未差异数据多一个),默认测试集的大小为2:gydF4y2Ba

yFit = @(XTrain,yTrain,XTest)(XTest*回归(yTrain,XTrain));cvMSE0 = crossval(gydF4y2BaMSE的gydF4y2Ba, X0, y0,gydF4y2Ba“predfun”gydF4y2Ba, yFit);cvRMSE0 = sqrt(cvMSE0)gydF4y2Ba
cvRMSE0 = 0.0954gydF4y2Ba
cvMSED1SWA = crossval(gydF4y2BaMSE的gydF4y2BaD1X0 (: 1 [3]), D1y0,gydF4y2Ba“predfun”gydF4y2Ba, yFit);cvRMSED1SWA = sqrt(cvMSED1SWA)gydF4y2Ba
cvRMSED1SWA = 0.1409gydF4y2Ba

rmse略高于先前发现的rmse,分别为0.0763和0.108,并且再次支持完整的原始预测因子集。gydF4y2Ba

套索gydF4y2Ba

最后,我们考虑最小绝对收缩和选择算子,或gydF4y2Ba套索gydF4y2Ba[4]gydF4y2Ba,gydF4y2Ba[8]gydF4y2Ba.lasso是一种正则化技术,类似于脊回归(在示例中讨论)gydF4y2Ba时间序列回归II:共线性和估计方差gydF4y2Ba),但有一个重要的区别,这对预测器的选择是有用的。考虑以下脊估计器的等效公式:gydF4y2Ba

βgydF4y2Ba ˆgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba dgydF4y2Ba ggydF4y2Ba egydF4y2Ba =gydF4y2Ba 最小值gydF4y2Ba βgydF4y2Ba (gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba EgydF4y2Ba +gydF4y2Ba kgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba EgydF4y2Ba 是回归的误差(残差)平方和。本质上,山脊估计器最小化gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba EgydF4y2Ba 同时惩罚大系数gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba .作为山脊参数gydF4y2Ba kgydF4y2Ba >gydF4y2Ba 0gydF4y2Ba 增加,惩罚将系数估计值缩小到0,试图减少由近共线预测因子产生的大方差。gydF4y2Ba

套索估计器有一个类似的公式:gydF4y2Ba

βgydF4y2Ba ˆgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba ogydF4y2Ba =gydF4y2Ba 最小值gydF4y2Ba βgydF4y2Ba (gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba EgydF4y2Ba +gydF4y2Ba kgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba |gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba |gydF4y2Ba )gydF4y2Ba .gydF4y2Ba

惩罚的变化看起来很小,但它在重要的方面影响了估计器。就像山脊估计器一样,gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba ogydF4y2Ba 偏向于零(放弃蓝色中的“U”)。然而,与脊估计器不同的是,gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba ogydF4y2Ba 响应值不是线性的吗gydF4y2Ba ygydF4y2Ba tgydF4y2Ba (放弃蓝色中的“L”)。这从根本上改变了评估过程的性质。新的几何形状允许系数估计缩小到零的有限值gydF4y2Ba kgydF4y2Ba ,有效地选择了预测因子的子集。gydF4y2Ba

Lasso是由gydF4y2Ba套索gydF4y2Ba函数。默认情况下,gydF4y2Ba套索gydF4y2Ba估计一系列参数的回归gydF4y2Ba kgydF4y2Ba ,计算每个值处的MSE。我们设置gydF4y2Ba“简历”gydF4y2Ba到10,通过10倍交叉验证计算mse。这个函数gydF4y2BalassoPlotgydF4y2Ba显示系数估计值的痕迹:gydF4y2Ba

[lassoBetas,lassoInfo] = lasso(X0,y0,gydF4y2Ba“简历”gydF4y2Ba10);[hax,hfig] = lassoPlot(lassoBetas,lassoInfo,gydF4y2Ba“PlotType”gydF4y2Ba,gydF4y2Ba“λ”gydF4y2Ba);hax。XGrid =gydF4y2Ba“上”gydF4y2Ba;hax。YGrid =gydF4y2Ba“上”gydF4y2Ba;hax。GridLineStyle =gydF4y2Ba“- - -”gydF4y2Ba;hax.Title.String =gydF4y2Ba'{\bf Lasso Trace}'gydF4y2Ba;hax.XLabel.String =gydF4y2Ba“拉索参数”gydF4y2Ba;hlplot = hax.Children;hMSEs = hlplot(5:6);Htraces = hlplot(4:-1:1);集(hlplot,gydF4y2Ba“线宽”gydF4y2Ba2)组(hmsgydF4y2Ba“颜色”gydF4y2Ba,gydF4y2Ba“米”gydF4y2Ba)传说(htraces predNames0,gydF4y2Ba“位置”gydF4y2Ba,gydF4y2Ba“西北”gydF4y2Ba)gydF4y2Ba

图中包含2个轴对象。轴对象1,标题为空白L a s s,空白T r a c e为空。轴对象2,标题为空L a s s o空T r a c e,包含6个类型为line的对象。这些对象代表LambdaMinMSE, Lambda1SE, AGE, BBB, CPF, SPR。gydF4y2Ba

hfig。HandleVisibility =gydF4y2Ba“上”gydF4y2Ba;gydF4y2Ba

较大的值gydF4y2Ba kgydF4y2Ba 出现在左边,OLS估计在右边,反转了典型脊迹的方向。模型的自由度(非零系数估计的数量)沿着图的顶部从左到右增加。虚线表示gydF4y2Ba kgydF4y2Ba 最小MSE值(右边)和最小MSE值加上一个标准误差(左边)。在这种情况下,最小值出现在OLS估计中,gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,与山脊回归完全相同。一个标准误差值通常被用作选择较小且拟合良好的模型的指导原则gydF4y2Ba[1]gydF4y2Ba.gydF4y2Ba

情节表明gydF4y2Ba年龄gydF4y2Ba而且gydF4y2Ba论坛gydF4y2Ba作为原始预测因子的一个可能子集。我们执行另一个逐步回归,将这些预测因子强制带入模型:gydF4y2Ba

M0SWAC = stepwism (X0,y0,gydF4y2Ba“IGD ~年龄+论坛”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“低”gydF4y2Ba,gydF4y2Ba“IGD ~年龄+论坛”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“上”gydF4y2Ba,gydF4y2Ba“线性”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“VarNames”gydF4y2Ba(predNames0 respName0])gydF4y2Ba
1.添加BBB, FStat = 4.9583, pValue = 0.039774gydF4y2Ba
M0SWAC =线性回归模型:IGD ~ 1 + AGE + BBB + CPF估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.14474 0.078556 -1.8424 0.082921 AGE 0.013621 0.0090796 1.5001 0.15192 BBB 0.0056359 0.002531 2.2267 0.039774 CPF -0.015299 0.0038825 -3.9405 0.0010548观测数:21,误差自由度:17均方根误差:0.0781 r平方:0.579,调整r平方:0.504 f统计量vs常数模型:7.79, p值= 0.00174gydF4y2Ba

回归也在移动gydF4y2BaBBBgydF4y2Ba进入模型,得到的RMSE低于之前从空初始模型逐步回归得到的0.0808,gydF4y2BaM0SWgydF4y2Ba,选取gydF4y2BaBBBgydF4y2Ba而且gydF4y2Ba论坛gydF4y2Ba一个人。gydF4y2Ba

因为包括gydF4y2BaBBBgydF4y2Ba增加估计系数的数量,我们使用AIC和BIC来比较更吝啬的2-预测器模型gydF4y2BaM0ACgydF4y2Ba通过套索发现扩展的3-预测器模型gydF4y2BaM0SWACgydF4y2Ba:gydF4y2Ba

M0AC = fitlm(DataTable(:,[1 3 5]))gydF4y2Ba
M0AC =线性回归模型:IGD ~ 1 + AGE + CPF估计系数:估计SE tStat pValue _________ _________ ________ _________(截距)-0.056025 0.074779 -0.74921 0.46341 AGE 0.023221 0.0088255 2.6311 0.016951 CPF -0.011699 0.0038988 -3.0008 0.0076727观测数:21,误差自由度:18均方根误差:0.0863 r平方:0.456,调整r平方:0.395 f统计量vs常数模型:7.54,p值= 0.00418gydF4y2Ba
AIC0AC = m0ac . modelcriteria . aicgydF4y2Ba
Aic0ac = -40.5574gydF4y2Ba
BIC0AC = m0ac . modelcriteria . bicgydF4y2Ba
Bic0ac = -37.4238gydF4y2Ba
AIC0SWAC = m0swac . modelcriteria . aicgydF4y2Ba
Aic0swac = -43.9319gydF4y2Ba
BIC0SWAC = m0swac . modelcriteria . bicgydF4y2Ba
Bic0swac = -39.7538gydF4y2Ba

较低的RMSE足以补偿额外的预测器,两个标准都选择3预测器模型而不是2预测器模型。gydF4y2Ba

对比模型gydF4y2Ba

这里描述的过程提出了一些具有统计特征的简化模型,这些模型与具有全套原始或差异预测因子的模型相当。我们总结了结果:gydF4y2Ba

M0gydF4y2Ba用原始预测因子建立模型,gydF4y2Ba年龄gydF4y2Ba,gydF4y2BaBBBgydF4y2Ba,gydF4y2Ba论坛gydF4y2Ba,gydF4y2BaSPRgydF4y2Ba.gydF4y2Ba

M0SWgydF4y2Ba子模型的gydF4y2BaM0gydF4y2Ba从一个空模型开始,通过逐步回归得到。它包括gydF4y2BaBBBgydF4y2Ba而且gydF4y2Ba论坛gydF4y2Ba.gydF4y2Ba

M0SWACgydF4y2Ba子模型的gydF4y2BaM0gydF4y2Ba通过逐步回归得到,从一个强制模型开始gydF4y2Ba年龄gydF4y2Ba而且gydF4y2Ba论坛gydF4y2Ba.由套索建议。它包括gydF4y2Ba年龄gydF4y2Ba,gydF4y2BaBBBgydF4y2Ba,gydF4y2Ba论坛gydF4y2Ba.gydF4y2Ba

MD1gydF4y2Ba用原始预测器建模gydF4y2Ba年龄gydF4y2Ba以及不同的预测因子gydF4y2BaD1BBBgydF4y2Ba,gydF4y2BaD1CPFgydF4y2Ba,gydF4y2BaD1SPRgydF4y2Ba.由实例中的集成和平稳性测试建议gydF4y2Ba时间序列回归IV:伪回归gydF4y2Ba.gydF4y2Ba

MD1SWgydF4y2Ba子模型的gydF4y2BaMD1gydF4y2Ba从一个空模型开始,通过逐步回归得到。它包括gydF4y2BaD1CPFgydF4y2Ba.gydF4y2Ba

MD1SWAgydF4y2Ba子模型的gydF4y2BaMD1gydF4y2Ba通过逐步回归得到,从一个强制模型开始gydF4y2Ba年龄gydF4y2Ba.理论上是这样的。它包括gydF4y2Ba年龄gydF4y2Ba而且gydF4y2BaD1CPFgydF4y2Ba.gydF4y2Ba

计算缺失信息:gydF4y2BaAIC0SW = m0sw . modelcriteria . aic;BIC0SW = m0sw . modelcriteria . bic;AICD1SW = md1sw . modelcriteria . aic;BICD1SW = md1sw . modelcriteria . bic;gydF4y2Ba创建模型对比表:gydF4y2BaRmse = [m0.rmse; m0sw.rmse; m0swac.rmse; md1.rmse; md1sw.rmse; md1sw.rmse];Aic = [aic0; aic0sw; aic0swc; aicd1; aicd1sw; aicd1swa];Bic = [bic0; bic0sw; bic0swc; bicd1; bicd1sw; bicd1swa];模型=表(RMSE,AIC,BIC,gydF4y2Ba...gydF4y2Ba“RowNames”gydF4y2Ba, {gydF4y2Ba“M0”gydF4y2Ba,gydF4y2Ba“M0SW”gydF4y2Ba,gydF4y2Ba“M0SWAC”gydF4y2Ba,gydF4y2Ba“MD1”gydF4y2Ba,gydF4y2Ba“MD1SW”gydF4y2Ba,gydF4y2Ba“MD1SWA”gydF4y2Ba})gydF4y2Ba
模型=gydF4y2Ba6×3表gydF4y2BaRmse aic bic ________ _______ _______ m0 0.076346 -44.159 -38.937 m0sw 0.080768 -43.321 -40.188 m0swac 0.078101 -43.932 -39.754 md1 0.10613 -28.72 -23.741 md1sw 0.10921 -29.931 -27.939 md1swa 0.10771 -29.624 -26.637gydF4y2Ba

涉及原始、无差异数据的模型通常比使用差异数据的模型得到更高的分数(更低的rmse和ic),但必须记住虚假回归的可能性,这导致了首先考虑差异数据。在每个模型类别中,结果是喜忧参半的。具有最多预测因子的原始模型(gydF4y2BaM0gydF4y2Ba,gydF4y2BaMD1gydF4y2Ba)的rmse在同类中最低,但也有较低aic的简化模型(gydF4y2BaM0SWACgydF4y2Ba,gydF4y2BaMD1SWgydF4y2Ba,gydF4y2BaMD1SWAgydF4y2Ba)和较低bic (gydF4y2BaM0SWgydF4y2Ba,gydF4y2BaM0SWACgydF4y2Ba,gydF4y2BaMD1SWgydF4y2Ba,gydF4y2BaMD1SWAgydF4y2Ba).信息标准建议更小的模型,或者不同的信息标准不一致(gydF4y2BaM0SWgydF4y2Ba,gydF4y2BaM0SWACgydF4y2Ba).此外,还有许多原始和不同预测因子的组合,我们没有包括在我们的分析中。在更大的建模目标的环境中,实践者必须决定精简到什么程度才足够。gydF4y2Ba

总结gydF4y2Ba

这个例子在一个实际的经济预测模型的背景下比较了一些预测器选择技术。许多这样的技术已经被开发用于实验情况,在这种情况下,数据收集会导致大量潜在的预测因子,而统计技术是唯一实用的排序方法。在数据选择更有限的情况下,纯统计技术可以产生一系列具有可比拟合优度度量的潜在模型。与以往一样,理论因素在经济模型选择中必须发挥关键作用,而统计数据则用于在相关经济因素的竞争代理中进行选择。gydF4y2Ba

参考文献gydF4y2Ba

[1]gydF4y2Ba布里曼,L., J. H.弗里德曼,R. A.奥尔申和C. J.斯通。gydF4y2Ba分类与回归树gydF4y2Ba.佛罗里达州博卡拉顿:查普曼和霍尔/CRC, 1984年。gydF4y2Ba

[2]gydF4y2BaGoutte C。“关于免费午餐和交叉验证的注意事项”gydF4y2Ba神经计算gydF4y2Ba.第9卷,1997,第1211-1215页。gydF4y2Ba

[3]gydF4y2Ba哈特,j.d.。时间序列误差的核回归估计。gydF4y2Ba皇家统计学会杂志gydF4y2Ba.B辑,第53卷,1991年,第173-187页。gydF4y2Ba

[4]gydF4y2Ba哈斯蒂、T.、R.蒂布谢拉尼和J.弗里德曼。gydF4y2Ba统计学习的要素gydF4y2Ba.纽约:施普林格,2008。gydF4y2Ba

[5]gydF4y2Ba琼森,J. G.和M.弗里德森。"预测高收益债券的违约率"gydF4y2Ba固定收益杂志gydF4y2Ba.第6卷,1996年第1期,第69-77页。gydF4y2Ba

[6]gydF4y2Ba邵,J。线性模型选择的渐近理论gydF4y2BaStatistica中央研究院gydF4y2Ba.Vol. 7, 1997, pp. 221-264。gydF4y2Ba

[7]gydF4y2Ba石头,M。交叉验证与赤池准则下模型选择的渐近等价性。gydF4y2Ba皇家统计学会杂志gydF4y2Ba.B辑,第39卷,1977年,44-47页。gydF4y2Ba

[8]gydF4y2BaTibshirani, R。"通过套索回归收缩和选择"gydF4y2Ba皇家统计学会杂志。gydF4y2Ba第58卷,1996,第267-288页。gydF4y2Ba