主要内容gydF4y2Ba

时间序列回归Ⅱ:共线性和估计方差gydF4y2Ba

这个例子展示了如何检测预测器之间的相关性并适应大估计方差的问题。这是关于时间序列回归的一系列示例中的第二个,在上一个示例的演示之后。gydF4y2Ba

介绍gydF4y2Ba

就真实数据生成过程(DGP)而言,经济模型总是不够具体.模型预测因子从未完全代表产生经济响应的所有因果因素。但是,忽略的变量在创新过程中继续发挥其影响,迫使模型系数解释其无法真正解释的响应变化。系数估计太大(I类错误)或太小(II类错误)会扭曲每个预测值的边际贡献。在某些情况下,系数甚至会以错误的符号结束。gydF4y2Ba

经济模型也可以被过度指定,包括一个对理论盲目的混合预测者,希望捕获gdp的一些重要部分。通常,“从一般到具体”(GETS)估计方法的应用错误地相信,标准的诊断统计数据将挑选出好的预测者。然而,因果无关的预测因子的存在往往会增加估计量的方差,提高标准推断不可靠的可能性。gydF4y2Ba

在本系列的这个以及随后的示例中,将讨论使用错误指定的模型的实际情况。在创新过程中,未指定的模型往往引入预测变量之间的相关性,而忽略了变量。过度指定的模型通常会引入预测因子之间的相关性。对于模型估计,每种方法都有其自身的问题。在这个例子中,我们特别关注由相关预测因子引起的问题。在这个例子中讨论了与预测器和创新之间的相关性(外生性违反)有关的稍微复杂的问题gydF4y2Ba时间序列回归VIII:滞后变量和估计偏差gydF4y2Ba.gydF4y2Ba

我们首先从上一个示例加载相关数据gydF4y2Ba时间序列回归Ⅰ:线性模型gydF4y2Ba,并继续分析此处介绍的信用违约模型:gydF4y2Ba

负载gydF4y2Ba数据规则1gydF4y2Ba

相关和条件数gydF4y2Ba

作为走向模型规范的第一步,识别预测器之间任何可能的依赖关系是很有用的。相关矩阵是衡量成对线性关系强度的标准:gydF4y2Ba

R0=相关系数(X0)gydF4y2Ba
R0=gydF4y2Ba4×4gydF4y2Ba0.4578 0.0566 -0.0686 0.4578 1.0000 0.3955 0.3082 0.0566 0.3955 1.0000 0.0874 -0.0686 0.3082 0.0874 1.0000gydF4y2Ba

效用函数gydF4y2BacorrplotgydF4y2Ba通过绘制成对散射矩阵,有助于在相关矩阵中可视化结果。显示的最小二乘直线的斜率等于显示的相关系数。使用表格数组版本的数据是很方便的,gydF4y2BaX0TblgydF4y2Ba,其中包含绘图的预测器名称:gydF4y2Ba

图corrplot (X0Tbl,gydF4y2Ba“testR”gydF4y2Ba,gydF4y2Ba“上”gydF4y2Ba)gydF4y2Ba

MATLAB图形gydF4y2Ba

用红色突出显示的相关系数具有显著性gydF4y2Ba tgydF4y2Ba 统计。的预测gydF4y2BaBBBgydF4y2Ba它与其他预测因子的相关性相对较高,尽管相关性的强度是适度的。在这里,可视化是特别有用的gydF4y2BaBBBgydF4y2Ba显示相当杂乱的散点,可能存在一些小型的、有潜在影响的数据子集。这些图提醒我们线性相关系数作为汇总统计的局限性。gydF4y2Ba

的规模和相关性gydF4y2BaBBBgydF4y2Ba有膨胀的潜力吗gydF4y2Ba条件数gydF4y2Ba κgydF4y2Ba 的gydF4y2Ba XgydF4y2Ba tgydF4y2Ba . 条件数通常用于表征OLS估计对数据变化的总体敏感性。对于具有截距的MLR模型:gydF4y2Ba

kappa0I=秒(X0I)gydF4y2Ba
kappa0I=205.8085gydF4y2Ba

条件数远高于“条件良好”基准1,当gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 有正交列。根据经验,数据的相对误差为1%gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 能生产出一个gydF4y2Ba κgydF4y2Ba %系数估计中的相对误差gydF4y2Ba βgydF4y2Ba [4]gydF4y2Ba:gydF4y2Ba

为gydF4y2Ba δgydF4y2Ba βgydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba βgydF4y2Ba 为gydF4y2Ba ≤gydF4y2Ba κgydF4y2Ba 为gydF4y2Ba δgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 为gydF4y2Ba

如前面的示例所示gydF4y2Ba时间序列回归Ⅰ:线性模型gydF4y2Ba,这个数据的系数估计的顺序是gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba -gydF4y2Ba 2gydF4y2Ba ,所以gydF4y2Ba κgydF4y2Ba 按gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 2gydF4y2Ba 导致绝对估计误差gydF4y2Ba 为gydF4y2Ba δgydF4y2Ba βgydF4y2Ba 为gydF4y2Ba 由数据中的相对误差近似得出。gydF4y2Ba

估计方差gydF4y2Ba

相关性和条件数被广泛用于标记潜在的数据问题,但它们的诊断价值有限。相关性只考虑预测器之间的成对依赖关系,而条件数只考虑gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 总的来说。任意预测子集之间的关系(gydF4y2Ba多重共线性gydF4y2Ba)可以介于两者之间。CLM假设禁止精确关系,但确定任何近似关系的强度和来源,以及它们对系数估计的具体影响,是规范分析的重要部分。gydF4y2Ba

许多检测近共线性的方法都集中在图像中的系数估计上gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba ,而不是数据gydF4y2Ba XgydF4y2Ba tgydF4y2Ba . 以下每一项都被认为是预测依赖性的信号:gydF4y2Ba

  • 在理论上重要的预测因子上统计上无关紧要的系数gydF4y2Ba

  • 符号或量级不具有理论意义的系数gydF4y2Ba

  • 一个系数对插入或删除其他预测因子的极端敏感性gydF4y2Ba

这些标准的定性性质是显而易见的,不幸的是,它们都不是检测共线的必要条件或充分条件。gydF4y2Ba

为了说明,我们再次显示信用违约模型的OLS拟合统计数据:gydF4y2Ba

M0gydF4y2Ba
M0=线性回归模型:IGD~1+年龄+BBB+CPF+SPR估计系数:估计当前pValue uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu(截距)年龄0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF-0.014888 0.0038077-3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观察次数:21,误差自由度:16均方根误差:0.0763 R平方:0.621,调整后的R平方:0.526 F统计与常数模型:6.56,p值=0.00253gydF4y2Ba

系数估计值的符号与理论预期一致:gydF4y2Ba年龄gydF4y2Ba,gydF4y2BaBBBgydF4y2Ba,gydF4y2BaSPRgydF4y2Ba添加风险;gydF4y2Ba论坛gydF4y2Ba减少它。这个gydF4y2BatgydF4y2Ba-statistics,根据其标准误差(在正常创新的假设下计算)衡量系数估计,显示所有预测因子在20%水平上显著不同于0。gydF4y2Ba论坛gydF4y2Ba在这里显得尤为重要。然而,预测值的重要性与模型中的其他预测值相关。gydF4y2Ba

在标准回归结果中没有任何东西引起对共线性的极大关注。然而,从结果来看,有必要考虑其他估计方差的来源。gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba hgydF4y2Ba 组成部分gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba ,gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba ,可以分解为gydF4y2Ba[6]gydF4y2Ba:gydF4y2Ba

VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba =gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba -gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba

哪里gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba 为创新过程的方差(假设为常数),gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 是预测器的总样本变化gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 决定系数是否来自预测因子的回归gydF4y2Ba 我gydF4y2Ba 在剩余的预测器上(和截距,如果存在)。gydF4y2Ba

术语gydF4y2Ba

VgydF4y2Ba 我gydF4y2Ba FgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba -gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba

被称为gydF4y2Ba通货膨胀因素方差gydF4y2Ba(VIF),是另一种常见的共线性诊断。当预测值的变化gydF4y2Ba 我gydF4y2Ba 这在很大程度上是由其他预测因子的线性组合来解释的,gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 接近gydF4y2Ba 1gydF4y2Ba ,该预测值的波动率因子相应较大。通货膨胀是相对于gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 为0(不共线性),VIF为1。gydF4y2Ba

vif也是相关矩阵逆的对角元素gydF4y2Ba[1]gydF4y2Ba,这是一个方便的结果,无需设置各种回归:gydF4y2Ba

VIF =诊断接头(发票(R0))”gydF4y2Ba
VIF=gydF4y2Ba1×4gydF4y2Ba1.3870 1.7901 1.2216 1.1850gydF4y2Ba
predNames0gydF4y2Ba
predNames0 =gydF4y2Ba1x4电池gydF4y2Ba{'AGE'}{'BBB'}{'CPF'}{'SPR'}gydF4y2Ba

有多大的VIF值得关注?与标准假设检验的显著性水平一样,对某些类型数据的经验可能会提出有用的容差。一般情况下,5到10之间的普通特别值用处不大。在这种情况下,gydF4y2BaBBBgydF4y2Ba具有最高的VIF,但它不会从其他预测因素中跳出来。gydF4y2Ba

更重要的是,VIF只是上述方差分解中的一个因素。一个大的VIF可以通过一个小的创新差异来平衡gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba (良好的模型拟合)或较大的样本变异gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba (足够的数据)。因此,不gydF4y2Ba[2]gydF4y2Ba具有讽刺意味的是,将多重共线性的“问题”单独看待,比作数据的“微量”问题。评估估计值方差的不同来源的综合效应需要更广泛的视野。gydF4y2Ba

计量经济学家已经制定了许多经验法则来决定何时担心共线性。也许最常见的说法是,如果结果是一致的,忽略共线的证据是可以接受的gydF4y2BatgydF4y2Ba-统计数据的绝对值都大于2。这确保了0在每个估计的大约95%置信区间之外(假设正常的创新或大样本)。因为gydF4y2BatgydF4y2Ba-统计数据已经为估计量方差进行了调整,假设它们充分说明了在其他平衡效应的背景下的共线性。以上的回归结果表明,三个潜在的预测因子gydF4y2BaX0gydF4y2Ba这次考试不及格。gydF4y2Ba

另一个经验法则是基于gydF4y2Ba VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba [5]gydF4y2Ba:gydF4y2Ba

VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ˆgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba -gydF4y2Ba ngydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba ygydF4y2Ba 2gydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba -gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba -gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

哪里gydF4y2Ba TgydF4y2Ba 为样本量,gydF4y2Ba ngydF4y2Ba 是预测值的数量,gydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba ygydF4y2Ba 2gydF4y2Ba 的估计方差是gydF4y2Ba ygydF4y2Ba tgydF4y2Ba ,gydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 估计方差是预测器吗gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba 是回归的决定系数吗gydF4y2Ba ygydF4y2Ba tgydF4y2Ba 在…上gydF4y2Ba XgydF4y2Ba tgydF4y2Ba ,gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 如上所述。规则说,如果gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba 超过gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba ,因为每个VIF将被平衡gydF4y2Ba 1gydF4y2Ba -gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba . 所有潜在的预测因素gydF4y2BaX0gydF4y2Ba通过这个测试:gydF4y2Ba

RSquared=M0.RSquaredgydF4y2Ba
RSquared =gydF4y2Ba结构体字段:gydF4y2Ba普通:0.6211调整:0.5264gydF4y2Ba
RSquared_i = 1 - 1. / (VIF)gydF4y2Ba
RSquared_i =gydF4y2Ba1×4gydF4y2Ba0.2790 0.4414 0.1814 0.1561gydF4y2Ba
predNames0gydF4y2Ba
predNames0 =gydF4y2Ba1x4电池gydF4y2Ba{'AGE'}{'BBB'}{'CPF'}{'SPR'}gydF4y2Ba

这些规则试图识别gydF4y2Ba后果gydF4y2Ba共线性,如回归结果所示。正如我们所看到的,对于何时以及在多大程度上担心系数估计的完整性,他们可以提供相互矛盾的建议。它们没有提供任何关于数据中多个依赖关系性质的说明,也没有提供任何可靠的度量方法来衡量这些依赖关系降低回归的程度。gydF4y2Ba

共线诊断gydF4y2Ba

中提供了更详细的分析方法gydF4y2Ba[1]gydF4y2Ba。OLS估计的不稳定性可追溯到叉积矩阵中的小特征值gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 出现在正态方程中gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba :gydF4y2Ba

βgydF4y2Ba ˆgydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba )gydF4y2Ba -gydF4y2Ba 1gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba ygydF4y2Ba tgydF4y2Ba .gydF4y2Ba

Belsley重新表述了的特征系统gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 关于矩阵的奇异值gydF4y2Ba XgydF4y2Ba tgydF4y2Ba ,然后可以直接进行分析,具有更大的数值精度。的奇异值gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 是gydF4y2Ba μgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba .gydF4y2Ba .gydF4y2Ba .gydF4y2Ba ,gydF4y2Ba μgydF4y2Ba ngydF4y2Ba 哪里gydF4y2Ba ngydF4y2Ba 是预测数,那么是条件数gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 是gydF4y2Ba κgydF4y2Ba =gydF4y2Ba μgydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba /gydF4y2Ba μgydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba . 贝尔斯利定义了一个光谱gydF4y2Ba条件指数gydF4y2Ba ηgydF4y2Ba jgydF4y2Ba =gydF4y2Ba μgydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba /gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 每人gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba .gydF4y2Ba .gydF4y2Ba .gydF4y2Ba ,gydF4y2Ba ngydF4y2Ba ,并表明高索引表明数据中独立的近依赖关系。gydF4y2Ba

Belsley进一步描述了一种方法,用于识别涉及每个近依赖项的特定预测因子,并提供了一种衡量这些依赖项在影响系数估计方面有多重要的方法。这是通过另一个分解来实现的gydF4y2Ba VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba ,这次用的是奇异值。如果gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 具有奇异值分解gydF4y2Ba UgydF4y2Ba 年代gydF4y2Ba VgydF4y2Ba TgydF4y2Ba ,gydF4y2Ba VgydF4y2Ba =gydF4y2Ba (gydF4y2Ba vgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba )gydF4y2Ba ,那么:gydF4y2Ba

VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba =gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba vgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba /gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

哪里gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba 这就是创新的方差。这个gydF4y2Ba方差分解比例gydF4y2Ba πgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba 定义如下:gydF4y2Ba

ϕgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba vgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba /gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

ϕgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ϕgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba

πgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba ϕgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba /gydF4y2Ba ϕgydF4y2Ba 我gydF4y2Ba .gydF4y2Ba

的gydF4y2Ba πgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba 给出gydF4y2Ba VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba 与奇异值相关gydF4y2Ba μgydF4y2Ba jgydF4y2Ba .gydF4y2Ba

指数和比例解释如下:gydF4y2Ba

  • 高条件索引的数量标识了近依赖项的数量。gydF4y2Ba

  • 条件索引的大小标识每个依赖项的紧密程度。gydF4y2Ba

  • 高指数行中高比例的位置确定了相关预测因子。gydF4y2Ba

  • 比例的大小确定退化程度的回归估计。gydF4y2Ba

同样,必须确定对“高”的容忍度。Belsley的模拟实验表明,5 ~ 10的条件指数反映的是弱依赖关系,30 ~ 100的条件指数反映的是中等到高依赖关系。他建议对确定单个预测因子的方差分解比例的容忍度为0.5。然而,模拟实验必须基于相互依赖的特定模型,因此在每个经验设置中需要重新评估公差。gydF4y2Ba

这个函数gydF4y2Ba柯林斯测试gydF4y2Ba实现Belsley的过程。输出以表格形式显示:gydF4y2Ba

柯林斯试验(X0ITbl);gydF4y2Ba
方差分解sValue condIdx Const BBB CPF SPR时代  --------------------------------------------------------- 2.0605 - 1 0.0015 0.0024 0.0020 0.0140 0.0025 0.8008 2.5730 0.0016 0.0025 0.0004 0.8220 0.0023 0.2563 8.0400 0.0037 0.3208 0.0105 0.0004 0.3781 0.1710 12.0464 0.2596 0.0950 0.8287 0.1463 0.0001 0.1343 15.3405 0.7335 0.5793 0.15850.0173 - 0.6170gydF4y2Ba

如果我们将指数公差降低到10,并将比例公差保持在0.5,则分析确定了两者之间的一个弱相关性gydF4y2Ba年龄gydF4y2Ba和gydF4y2BaSPRgydF4y2Ba在最后一排。可以通过设置gydF4y2Ba“tolIdx”gydF4y2Ba和gydF4y2Ba“托尔普洛普”gydF4y2Ba中的参数gydF4y2Ba柯林斯测试gydF4y2Ba然后打开gydF4y2Ba“阴谋”gydF4y2Ba旗帜:gydF4y2Ba

图1:测试(X0ITbl,gydF4y2Ba“tolIdx”gydF4y2Ba,10,gydF4y2Ba“托尔普洛普”gydF4y2Ba, 0.5,gydF4y2Ba“显示”gydF4y2Ba,gydF4y2Ba“关”gydF4y2Ba,gydF4y2Ba“阴谋”gydF4y2Ba,gydF4y2Ba“上”gydF4y2Ba);gydF4y2Ba

图中包含一个Axis对象。标题为“空白H i g H空白i n d e x空白V a r i a n c e空白d e c o m p o s i t o n s”的Axis对象包含4个类型为line的对象。这些对象表示condIdx 12、condIdx 15.3和tolProp。gydF4y2Ba

该图显示了方差分解表中指数容差上方的关键行。与条件指数12相关联的行只有一个预测器,gydF4y2BaBBBgydF4y2Ba,其比例高于公差,而不是依赖性所需的两个或多个预测值。与条件指数15.3相关的行显示了弱相关性,包括gydF4y2Ba年龄gydF4y2Ba,gydF4y2BaSPRgydF4y2Ba,以及拦截。这种关系在相关矩阵的初始图中并不明显。gydF4y2Ba

综上所述,各种共线性诊断结果与不存在退化近缘关系的数据是一致的。事实上,对潜在预测因素(在纯粹的统计分析中很容易丢失)的经济意义进行回顾,并没有提出任何强有力的理论理由。尽管相关性较弱,OLS估计仍然是BLUE,回归结果中的标准误差表明,对于大多数建模目的来说,精度可能是可以接受的。gydF4y2Ba

岭回归gydF4y2Ba

最后,我们简要地检查一下gydF4y2Ba岭回归gydF4y2Ba,这通常被建议作为具有一定程度共线性的数据的MLR模型中估计方差的一种补救措施。该技术也可用作共线诊断。gydF4y2Ba

为了解决近似奇异性的问题gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba ,岭回归估计gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba 使用一个gydF4y2Ba正规化gydF4y2Ba正常方程组中的:gydF4y2Ba

βgydF4y2Ba ˆgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba dgydF4y2Ba ggydF4y2Ba egydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba +gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba -gydF4y2Ba 1gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba ygydF4y2Ba tgydF4y2Ba ,gydF4y2Ba

哪里gydF4y2Ba kgydF4y2Ba 是一个积极的gydF4y2Ba脊参数gydF4y2Ba和gydF4y2Ba 我gydF4y2Ba 是单位矩阵。对角线的扰动gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 旨在改进特征值问题的条件,减少系数估计的方差。像gydF4y2Ba kgydF4y2Ba 增加时,脊估计会偏向于零,但相对于可比的OLS估计,方差减少会导致更小的均方误差(MSE),特别是在共线性存在的情况下。gydF4y2Ba

岭回归由函数执行gydF4y2Ba脊gydF4y2Ba.检验一系列山脊参数的结果gydF4y2Ba kgydF4y2Ba ,一个gydF4y2Ba岭跟踪gydF4y2Ba[3]gydF4y2Ba生产:gydF4y2Ba

Mu0I =意味着(诊断接头(X0I ' * X0I));gydF4y2Ba%叉积对角标度gydF4y2Bak=0:Mu0I/10;gydF4y2Ba山脊参数范围gydF4y2Ba脊β=脊(y0,X0,k,0);gydF4y2Ba%具有截距的MLR模型的系数gydF4y2Ba图1(k,脊betas(2:结束,:),gydF4y2Ba“线宽”gydF4y2Ba,2)xlim([0 Mu0I/10])图例(predNames0)xlabel(gydF4y2Ba“脊参数”gydF4y2Ba) ylabel (gydF4y2Ba“岭系数估计”gydF4y2Ba)头衔(gydF4y2Ba“{\ bf岭跟踪}”gydF4y2Ba)轴心gydF4y2Ba牢固的gydF4y2Ba网格gydF4y2Ba在…上gydF4y2Ba

图中包含一个轴对象。具有标题空白R i d e空白T R a c e的轴对象包含4个类型为line的对象。这些对象代表AGE, BBB, CPF, SPR。gydF4y2Ba

苏丹生命线行动估计数,包括gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,出现在左边。重要的问题是,是否有任何山脊估计会降低MSE:gydF4y2Ba

[numRidgeParams,numRidgeBetas]=大小(脊贝塔);y0Hat=X0I*脊贝塔;RidgeRes=repmat(y0,1,numRidgeBetas)-y0Hat;RidgeSSE=RidgeRes'*RidgeRes;RidgeDFE=T0 numRidgeParams;RIDGESE=diag(RIDGESE/RidgeDFE);图表(k、Ridgems、,gydF4y2Ba“米”gydF4y2Ba,gydF4y2Ba“线宽”gydF4y2Baxlabel([0 Mu0I/10])gydF4y2Ba“脊参数”gydF4y2Ba) ylabel (gydF4y2Ba“MSE”gydF4y2Ba)头衔(gydF4y2Ba“{\ bf岭MSE}”gydF4y2Ba)轴心gydF4y2Ba牢固的gydF4y2Ba网格gydF4y2Ba在…上gydF4y2Ba

图中包含一个轴对象。标题为空白R i d g e空白M S e的轴对象包含一个类型为line的对象。gydF4y2Ba

图中所示与应用岭回归时所希望的正好相反。MSE实际上在整个岭参数范围内增加,再次表明岭回归数据中没有显著的共线性进行校正。gydF4y2Ba

一种与脊回归有关的技术gydF4y2Ba套索gydF4y2Ba,在示例中进行了描述gydF4y2Ba时间序列回归V:预测器的选择gydF4y2Ba.gydF4y2Ba

总结gydF4y2Ba

本例着重于预测数据的特性,这些特性可能导致高OLS估计方差,从而导致不可靠的系数估计。Belsley的技术可用于识别导致问题的特定数据关系,以及评估对估计的影响程度。一种适应est的方法imator方差是岭回归。示例中介绍了选择性去除有问题预测值的方法gydF4y2Ba时间序列回归III:有影响的观察gydF4y2Ba和gydF4y2Ba时间序列回归V:预测器的选择gydF4y2Ba.gydF4y2Ba

参考文献gydF4y2Ba

[1]gydF4y2Ba贝尔斯利,D.A.,E.Kuh和R.E.Welsh。gydF4y2Ba回归诊断gydF4y2Ba纽约:约翰·威利父子公司,1980年。gydF4y2Ba

[2]gydF4y2Ba戈德伯格,A.T。gydF4y2Ba计量经济学课程gydF4y2Ba.马萨诸塞州剑桥:哈佛大学出版社,1991年。gydF4y2Ba

[3]gydF4y2Ba霍尔,A. E.和R. W.肯纳德。岭回归:非正交问题的应用。gydF4y2Ba技术指标gydF4y2Ba第12卷,第1期,1970年,第69-82页。gydF4y2Ba

[4]gydF4y2Ba硅藻土,C。gydF4y2Ba用MATLAB进行数值计算gydF4y2Ba.费城:工业和应用数学学会,2004。gydF4y2Ba

[5]gydF4y2Ba石头,R。《市场需求分析》。gydF4y2Ba皇家统计学会杂志gydF4y2Ba. 1945年第108卷,第1-98页。gydF4y2Ba

[6]gydF4y2Ba里奇,j . M。gydF4y2Ba计算机经济学导论gydF4y2Ba.辛辛那提,OH:西南,2009。gydF4y2Ba