文档

时间序列回归II:共线性与估计量方差

这个例子展示了如何检测预测因子之间的相关性,并适应大估计方差的问题。这是关于时间序列回归的一系列示例中的第二个,在前一个示例中的演示之后。

介绍

相对于真实的数据生成过程(DGP),经济模型总是未被详细说明。模型预测者永远不能完全代表产生经济反应的所有因果因素。然而,被忽略的变量在创新过程中继续发挥其影响,迫使模型系数考虑到它们无法真正解释的响应变化。系数估计太大(第一类误差)或太小(第二类误差)会扭曲每个预测器的边际贡献。在某些情况下,系数甚至以错误的符号结束。

经济模型也可能被过度指定,包括一个理论盲的预测因子组合,希望捕捉到gdp的一些重要部分。通常,应用“从一般到特定”(GETS)的估计方法时,错误地相信标准诊断统计数据会选出好的预测器。然而,因果关系不显著的预测因子的存在往往会增加估计量方差,从而提高标准推断不可靠的可能性。

在本系列的这个示例以及后续示例中,将讨论使用错误指定的模型的现实情况。在创新过程中,不明确的模型往往会引入预测因子和遗漏变量之间的相关性。过度指定的模型通常会引入预测因子之间的相关性。每种方法都有自己的模型估计问题。在这个例子中,我们特别关注由相关预测因子引起的问题。在“滞后变量和估计器偏差”的例子中讨论了与预测器和创新之间的相关性(违反外生性)相关的更复杂的问题。

我们首先从前面“线性模型”的例子中加载相关数据,并继续分析那里提出的信用违约模型:

负载Data_TSReg1

相关和条件数

作为实现模型规范的第一步,识别预测器之间任何可能的依赖关系是有用的。相关矩阵是衡量两两线性关系强度的标准:

R0 =修正系数(X0)
R0 = 1.0000 0.4578 0.0566 -0.0686 0.4578 1.0000 0.3955 0.3082 0.0566 0.3955 1.0000 0.0874 -0.0686 0.3082 0.0874 1.0000

效用函数corrplot通过绘制成对散点的矩阵,帮助可视化相关矩阵中的结果。显示的最小二乘线的斜率等于显示的相关系数。使用数据的表格数组版本很方便,X0Tbl,其中包含图的预测器名称:

corrplot (X0Tbl“testR”“上”

用红色突出显示的相关系数具有显著的统计。的预测BBB它与其他预测指标的相关性也相对较高,尽管这种关系的强度是中等的。在这里,可视化是特别有用的,因为BBB显示相当无组织的散点,可能有许多小的、可能有影响的数据子集。这些图表提醒人们线性相关系数作为汇总统计量的局限性。

的规模和相关性BBB有可能使条件数。条件数通常用来表征OLS估计对数据变化的总体敏感性。对于具有截距的MLR模型:

kappa0I = cond(X0I)
kappa0I = 205.8085

条件数远高于“条件良好”基准1,当有标准正交的列。根据经验,数据中1%的相对误差可以生产多达一个系数估计中的相对误差%[4]:

如前面的“线性模型”示例所示,该数据的系数估计为,所以。在…的量级上导致绝对估计误差用数据中的相对误差来近似。

估计量的方差

相关性和条件数被广泛用于标记潜在的数据问题,但它们的诊断价值有限。相关性只考虑预测因子之间的两两依赖关系,而条件数只考虑在聚合。任意预测子集之间的关系(多重共线性)可能介于两者之间。CLM假设禁止精确的关系,但是识别任何接近关系的强度和来源,以及它们对系数估计的特定影响,是规范分析的重要部分。

许多检测近共线的方法都集中在系数估计上,而不是其中的数据。以下每一项都被认为是预测依赖的标志:

理论上重要的预测因子的系数在统计上不显著

带有符号或大小的系数在理论上没有意义

系数对其他预测因子的插入或删除的极端敏感性

这些标准的定性性质是显而易见的,不幸的是,它们都不是检测共线性的必要或充分条件。

为了说明,我们再次显示信用违约模型的OLS拟合统计:

M0
M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21,误差自由度:16均方根误差:0.0763 r平方:0.621,调整后的r平方0.526 f统计量与常数模型:6.56,p值= 0.00253

系数估计值的符号与理论预期一致:年龄BBB,SPR添加风险;论坛减少它。的t-统计学通过标准误差(在正常创新的假设下计算)来衡量系数估计,表明所有预测因子在20%水平上都与0显著不同。论坛在这里显得尤为重要。然而,预测因子的重要性是相对于模型中的其他预测因子而言的。

在标准回归结果中没有引起对共线性的实质性关注。然而,为了正确地看待结果,有必要考虑估计量方差的其他来源。在CLM假设下,的组成部分,可分解为[6]:

在哪里为创新过程的方差(假设为常数);总样本变异是预测因子吗,决定系数是否来自回归预测因子剩下的预测器(如果有的话,还有截距)。

这个词

叫做方差膨胀系数(VIF),是另一种常见的共线性诊断。当变量预测器很大程度上是由其他预测因素的线性组合来解释的,接近于,该预测器的VIF相应较大。通货膨胀是相对于为0(无共线性),且VIF为1。

vif也是相关矩阵[1]逆的对角元素,这是一个方便的结果,消除了建立各种回归的需要:

VIF = diag(inv(R0))' predNames0
VIF = 1.3870 1.7901 1.2216 1.1850 predNames0 = 1x4 cell array {'AGE'} {'BBB'} {'CPF'} {'SPR'}

VIF有多大才值得关注?与标准假设检验的显著性水平一样,对某些类型数据的经验可能建议有用的容差。一般来说,5到10范围内的普通临时值用处不大。在这种情况下,BBB具有最高的VIF,但它并没有从其他预测因子中跳出来。

更重要的是,VIF只是上述方差分解中的一个因素。一个大的VIF可以通过一个小的创新方差来平衡(良好的模型拟合)或大样本变异(足够的数据)。因此,Goldberger[2]讽刺地将多重共线性的“问题”孤立地比作数据的“微数量”问题。评估不同估计量方差来源的综合效应需要一个更广阔的视野。

计量经济学家已经开发了一些经验法则来决定何时担心共线性。也许最常见的说法是,忽略共线性的证据是可以接受的,如果结果t-统计量的绝对值都大于2。这确保了0在每个估计的大约95%置信区间之外(假设正常创新或大样本)。因为t-统计数据已经根据估计量方差进行了调整,假设它们充分说明了其他平衡效应背景下的共线性。上面的回归结果表明,三个潜在的预测因素X0测试失败。

另一个经验法则是基于对[5]:

在哪里是样本量,是预测因子的数量,估计方差是预测因子的估计方差是多少回归的决定系数是,如上所述。这个规则说,如果超过对于每个预测器,因为每个VIF将由。所有潜在的预测因子X0通过这个测试:

RSquared = M0。Rsquared RSquared_i = 1-(1 /VIF) predNames0
RSquared = struct with fields:普通:0.6211调整:0.5264 RSquared_i = 0.2790 0.4414 0.1814 0.1561 predNames0 = 1x4 cell array {'AGE'} {'BBB'} {'CPF'} {'SPR'}

这些规则试图识别后果共线性,如回归结果所示。正如我们所看到的,对于何时以及在多大程度上担心系数估计的完整性,它们可以提供相互矛盾的建议。它们没有对数据中多重依赖的性质提供任何说明,也没有对这些依赖降低回归的程度提供任何可靠的度量。

共线性诊断

Belsley[1]提供了一种更详细的分析方法。OLS估计的不稳定性可以追溯到交叉积矩阵中的小特征值出现在常规方程中

Belsley重新表述了的特征系统用矩阵的奇异值表示,然后可以直接分析,具有更高的数值精度。的奇异值,在那里是预测因子的个数,然后是条件的个数。Belsley定义了一个谱条件指数为每一个,并表明高指数表示数据中单独的近依赖关系。

Belsley进一步描述了一种方法,用于识别每个近依赖关系中涉及的特定预测因子,并提供了这些依赖关系在影响系数估计中的重要性的度量。这是通过另一个分解来实现的,这次用奇异值表示。如果有奇异值分解吗,,那么:

在哪里是创新方差。的方差分解比例定义为:

给出…的比例与奇异值相关

指数和比例解释如下:

高条件索引的数量标识了近依赖项的数量。

条件索引的大小标识每个依赖项的紧密程度。

高索引行中高比例的位置标识依赖的预测符。

比例的大小确定了回归估计的退化程度。

同样,必须确定对“高”的容忍度。Belsley的模拟实验表明,条件指数在5 ~ 10范围内反映弱依赖性,30 ~ 100范围内反映中高依赖性。他建议,对于识别单个预测因子的方差分解比例,容忍度为0.5。然而,模拟实验必须基于相互依赖的特定模型,因此需要在每个经验设置中重新评估公差。

这个函数collintest执行贝尔斯利的程序。输出以表格形式显示:

collintest (X0ITbl);
方差分解值condIdx Const AGE BBB CPF SPR --------------------------------------------------------- 2.0605 1 0.0015 0.0024 0.0020 0.0140 0.0025 0.8008 2.5730 0.0016 0.0025 0.0004 0.8220 0.0023 0.2563 8.0400 0.0037 0.3208 0.0105 0.0004 0.3781 0.1710 12.0464 0.2596 0.0950 0.8287 0.1463 0.0001 0.1343 15.3405 0.7335 0.5793 0.1585 0.0173 0.6170

如果我们将指数容忍度降低到10,并保持比例容忍度为0.5,则分析确定了两者之间的一个弱依赖性年龄SPR在最后一排。它可以通过设置“tolIdx”“tolProp”参数collintest然后打开“阴谋”国旗:

collintest (X0ITbl“tolIdx”10“tolProp”, 0.5,“显示”“关闭”“阴谋”“上”);

该图显示了方差分解表中的关键行,高于指数公差。与条件索引12相关联的行只有一个预测器,BBB,其比例高于容忍度,而不是依赖所需的两个或多个预测因子。与条件索引15.3相关联的行显示了涉及的弱依赖性年龄SPR,以及截距。这种关系在相关矩阵的初始图中并不明显。

总之,各种共线性诊断的结果与不存在退化近关系的数据一致。事实上,对潜在预测因素的经济意义的回顾(在纯粹的统计分析中很容易丢失)并没有提出任何牢固关系的理论原因。不考虑弱依赖性,OLS估计仍然是BLUE,并且回归结果中的标准误差显示了大多数建模目的可能可以接受的准确性。

岭回归

最后,我们简要地考察一下岭回归,这通常被认为是对具有一定程度共线性的数据的MLR模型中估计量方差的补救措施。该技术也可用于共线性诊断。

来解决接近奇点的问题岭回归估计使用一个正则化正常方程的:

在哪里是积极的岭参数是单位矩阵。对角线的扰动目的是改进特征值问题的条件,减小系数估计的方差。作为增加时,脊估计会偏向于零,但相对于可比较的OLS估计,减少的方差会导致更小的均方误差(MSE),特别是在共线性存在的情况下。

脊回归是由函数进行的。检查一系列脊形参数的结果,一个岭跟踪产生[3]:

Mu0I = mean(diag(X0I'*X0I));%叉积对角线的比例k = 0:Mu0I/10;%山脊参数范围ridgebeta = ridge(y0,X0,k,0);%带截距的MLR模型系数图绘制(k, ridgeBetas (2:,:)“线宽”,2) xlim([0 Mu0I/10]) legend(predNames0) xlabel(“岭参数”) ylabel (“脊系数估计”)标题(“{\bf Ridge Trace}”)轴网格

苏丹生命线行动估计,出现在左边。重要的问题是,脊估计是否会降低MSE:

[numRidgeParams,numRidgeBetas] = size(ridgeBetas);* * * * * * * *;ridgebeta = repmat(y0,1, numridgebeta)-y0Hat;RidgeSSE = RidgeRes'*RidgeRes;RidgeDFE = T0-numRidgeParams;RidgeMSE = diag(RidgeSSE/RidgeDFE);图绘制(k, RidgeMSE,“米”“线宽”,2) xlim([0 Mu0I/10]) xlabel(“岭参数”) ylabel (MSE的)标题(“{\bf Ridge MSE}”)轴网格

该图显示的结果与应用脊回归的结果完全相反。MSE实际上在整个脊参数范围内都有所增加,这再次表明脊回归数据中不存在显著的共线性。

一种与脊回归有关的技术套索,在“预测器选择”的示例中进行了描述。

总结

这个例子关注的是预测器数据的属性,这些属性会导致OLS估计量的高方差,从而导致不可靠的系数估计。Belsley的技术对于识别导致问题的特定数据关系以及评估对估计的影响程度非常有用。一种适应估计量方差的方法是脊回归。在“有影响的观察”和“预测器选择”的示例中讨论了选择性地删除有问题的预测器的方法。

参考文献

bbb10贝尔斯利,D. A.库,和R. E.韦尔奇。回归诊断。霍博肯,新泽西州:约翰·威利父子公司,1980年。

bbbbo Goldberger, a.t.计量经济学课程。剑桥,马萨诸塞州:哈佛大学出版社,1991。

bbb . Hoerl, A. E.和R. W. Kennard。岭回归:在非正交问题上的应用。技术计量学。第12卷第1期,1970年,第69-82页。

莫勒,C。MATLAB数值计算。费城:工业与应用数学学会,2004。

[5] Stone, R。《市场需求分析》英国皇家统计学会杂志。1945年,第108卷,第1-98页。

[6]伍尔德里奇,j.m.。计量经济学导论。辛辛那提,俄亥俄州:西南,2009年。

这个话题有帮助吗?