主要内容gydF4y2Ba

时间序列回归二世:共线性和估计方差gydF4y2Ba

这个例子展示了如何检测相关大型估计量的方差预测和适应问题。这是第二个在一系列的例子在时间序列回归,表示前一个例子。gydF4y2Ba

介绍gydF4y2Ba

经济模型总是遗漏对真正的数据生成过程(文章)。模型预测从未完全代表因果因素产生经济的整体反应。省略变量,然而,继续通过创新过程中发挥他们的影响力,迫使模型系数的变化反应占他们不真正的解释。估计系数太大(I型错误)或太小(II型错误)扭曲了每个因素的边际贡献。在某些情况下,甚至系数得到错误的信号。gydF4y2Ba

经济模型也可以overspecified,包括theory-blind组合预测希望捕捉一些文章的重要组成部分。通常,“general-to-specific”(被)评估方法应用错误的相信标准诊断统计将整理好的预测。然而,有因果的存在无关紧要的预测往往会增加估计量方差,提高标准的推论将不可靠的可能性。gydF4y2Ba

工作与misspecified模型解决的现实,和随后的,这一系列的例子。未指定模型往往会引入创新过程中的预测和省略变量之间的相关性。Overspecified模型往往会引入相关预测因子之一。为模型估计每个提出了自己的问题。在这个例子中,我们具体看预测中出现的问题相关。更复杂的相关性预测问题和创新(exogeneity侵犯)的例子gydF4y2Ba时间序列回归八世:滞后变量和估计偏差gydF4y2Ba。gydF4y2Ba

我们首先从前面的示例加载相关数据gydF4y2Ba时间序列回归我:线性模型gydF4y2Ba,继续分析信用违约模型的提出:gydF4y2Ba

负载gydF4y2BaData_TSReg1gydF4y2Ba

相关数量和条件gydF4y2Ba

作为一个模型规范的第一步,它是有用的识别任何可能的预测因素之间的依赖关系。强度的相关矩阵是一个标准的测量成对线性关系:gydF4y2Ba

R0 = corrcoef (X0)gydF4y2Ba
R0 =gydF4y2Ba4×4gydF4y2Ba1.0000 0.4578 0.0566 -0.0686 0.4578 1.0000 0.3955 0.3082 0.0566 0.3955 1.0000 0.0874 -0.0686 0.3082 0.0874 1.0000gydF4y2Ba

效用函数gydF4y2BacorrplotgydF4y2Ba有助于可视化结果的相关矩阵绘制成对散射矩阵。山坡上的显示的最小二乘行等于显示的相关系数。它方便与表格数组版本的数据,gydF4y2BaX0TblgydF4y2Ba,其中包含预测情节的名称:gydF4y2Ba

图corrplot (X0Tbl,gydF4y2Ba“testR”gydF4y2Ba,gydF4y2Ba“上”gydF4y2Ba)gydF4y2Ba

MATLAB图gydF4y2Ba

用红色突出显示的相关系数显著gydF4y2Ba tgydF4y2Ba 统计。的预测gydF4y2BaBBBgydF4y2Ba再区分自己与其他预测相关系数相对较高,但适中强度的关系。这里的可视化是特别有用,因为gydF4y2BaBBBgydF4y2Ba显示相当混乱的散射,与一些小的可能性,潜在影响力的数据子集。故事情节提醒人们限制的线性相关系数的汇总统计。gydF4y2Ba

的规模和相关性gydF4y2BaBBBgydF4y2Ba有可能夸大了gydF4y2Ba条件数gydF4y2Ba κgydF4y2Ba 的gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 。条件数常被用来描述总体敏感性的OLS估计数据的变化。对于一个高钙与拦截模型:gydF4y2Ba

kappa0I =电导率(X0I)gydF4y2Ba
kappa0I = 205.8085gydF4y2Ba

条件数远高于“状态良好的“基准的取得gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 有正交列。作为一个经验法则,1%的相对误差数据gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 可以生产了吗gydF4y2Ba κgydF4y2Ba %相对误差系数估计gydF4y2Ba βgydF4y2Ba [4]gydF4y2Ba:gydF4y2Ba

为gydF4y2Ba δgydF4y2Ba βgydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba βgydF4y2Ba 为gydF4y2Ba ≤gydF4y2Ba κgydF4y2Ba 为gydF4y2Ba δgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 为gydF4y2Ba

如前面的示例所示gydF4y2Ba时间序列回归我:线性模型gydF4y2Ba系数估计,对这些数据的顺序gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba ,所以gydF4y2Ba κgydF4y2Ba 上的顺序gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 2gydF4y2Ba 导致绝对估计错误gydF4y2Ba 为gydF4y2Ba δgydF4y2Ba βgydF4y2Ba 为gydF4y2Ba 近似的数据相对误差。gydF4y2Ba

估计量的方差gydF4y2Ba

相关性和条件数据是广泛用于标记潜在的数据问题,但他们的诊断价值有限。相关性只考虑成对预测之间的依赖关系,而数字只考虑条件gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 在聚合。任意指标子集之间的关系(gydF4y2Ba多重共线性gydF4y2Ba)则介于两者之间。CLM假设禁止确切的关系,但识别任何附近的强度和源关系,及其具体影响系数估计,是规范分析的一个重要组成部分。gydF4y2Ba

附近的许多方法检测共线性系数估计的关注gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba ,而不是数据gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 。以下已被建议作为一种警示信号预测依赖关系:gydF4y2Ba

  • 统计无关紧要的系数理论上重要的预测因子gydF4y2Ba

  • 系数与迹象或大小不理论意义gydF4y2Ba

  • 极端敏感性系数的插入或删除其他的预测因子gydF4y2Ba

这些标准的定性性质是明显的,不幸的是没有一个是必要的或充分的检测共线性。gydF4y2Ba

为了说明这一点,我们再次显示OLS适合信用违约模型的统计:gydF4y2Ba

M0gydF4y2Ba
M0 =线性回归模型:IGD ~ 1 +年龄+ BBB +公积金+ SPR估计系数:估计SE tStat pValue替_________ _____(拦截)-0.22741 0.098565 -2.3072 0.034747 BBB年龄0.016781 0.0091845 1.8271 0.086402 0.0042728 0.0026757 1.5969 0.12985论坛-0.014888 0.045488 0.033996 1.338 0.1996 0.0038077 -3.91 0.0012473 SPR的观测数量:21日误差自由度:16根均方误差:0.0763平方:0.621,调整平方:0.526 f统计量与常数模型:6.56,p = 0.00253gydF4y2Ba

估计系数的符号与理论预期是一致的:gydF4y2Ba年龄gydF4y2Ba,gydF4y2BaBBBgydF4y2Ba,gydF4y2BaSPRgydF4y2Ba添加风险;gydF4y2Ba论坛gydF4y2Ba减少它。的gydF4y2BatgydF4y2Ba统计,规模系数估计的标准误差(正常的假设下计算创新),显示所有的预测都是明显不同于0 20%的水平。gydF4y2Ba论坛gydF4y2Ba显得特别重要。预测的意义,然而,相对于其他预测模型。gydF4y2Ba

没有在标准共线性回归结果筹集大量的担忧。把结果的角度来看,然而,需要考虑其他的估计量方差来源。CLM的假设下,的方差gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba hgydF4y2Ba 的组成部分gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba ,gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba ,可以分解如下gydF4y2Ba[6]gydF4y2Ba:gydF4y2Ba

VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba =gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba 是创新过程的方差(假定常数),gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 预测的总样本变异吗gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 从回归系数确定的预测gydF4y2Ba 我gydF4y2Ba 在剩下的预测(和拦截,如果存在)。gydF4y2Ba

这个词gydF4y2Ba

VgydF4y2Ba 我gydF4y2Ba FgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba

被称为gydF4y2Ba通货膨胀因素方差gydF4y2Ba(VIF),是另一种常见的共线性诊断。当预测的变化gydF4y2Ba 我gydF4y2Ba 在很大程度上是通过另一个预测因子的线性组合来解释,gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 接近gydF4y2Ba 1gydF4y2Ba ,预测和VIF相应大。通货膨胀是衡量相对于一个gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 0(无共线性),VIF的1。gydF4y2Ba

vif也的逆相关性矩阵的对角元素gydF4y2Ba[1]gydF4y2Ba一个有利的结果,消除了需要设置各种回归:gydF4y2Ba

VIF =诊断接头(发票(R0))”gydF4y2Ba
VIF =gydF4y2Ba1×4gydF4y2Ba1.3870 1.7901 1.2216 1.1850gydF4y2Ba
predNames0gydF4y2Ba
predNames0 =gydF4y2Ba1 x4单元格gydF4y2Ba{“年龄”}{BBB的}{“论坛”}{SPR的}gydF4y2Ba

VIF是引起关注多大?作为标准假设测试与重要性水平,经验与某些类型的数据可能显示有用的公差。常见的临时值,在5到10的范围,是毫无用处的。在这种情况下,gydF4y2BaBBBgydF4y2BaVIF最高,但它不跳从其余的预测因子。gydF4y2Ba

更重要的是,VIF只是上面给出的方差分解的一个因素。大可以平衡VIF方差通过一个小创新gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba (好的模型适合)或大样本变异gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba (足够的数据)。因此,不gydF4y2Ba[2]gydF4y2Ba具有讽刺意味的是比较多重共线性的“问题”,孤立地看待问题的数据“micronumerosity。”Evaluating the combined effect of the different sources of estimator variance requires a wider view.

计量经济学家已经开发出一系列的经验法则来决定何时担心共线性。也许最常见的说,它是可以忽略的证据,如果由此产生的共线性gydF4y2BatgydF4y2Ba数据都是在绝对值大于2。这将确保0之外的近似的95%置信区间估计(假设正常的创新或大样本)。因为gydF4y2BatgydF4y2Ba统计数据已经调整的估计量方差,他们充分考虑共线性的假设是,其他的背景下,平衡效果。上述回归结果显示三个潜在的预测因子gydF4y2BaX0gydF4y2Ba这个测试失败。gydF4y2Ba

另一个经验法则是基于估计gydF4y2Ba VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba [5]gydF4y2Ba:gydF4y2Ba

VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ˆgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba - - - - - -gydF4y2Ba ngydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba ygydF4y2Ba 2gydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba TgydF4y2Ba 是样品的尺寸,gydF4y2Ba ngydF4y2Ba 预测的数量,gydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba ygydF4y2Ba 2gydF4y2Ba 估计的方差吗gydF4y2Ba ygydF4y2Ba tgydF4y2Ba ,gydF4y2Ba σgydF4y2Ba ˆgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 估计的方差预测吗gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba 是确定系数的回归gydF4y2Ba ygydF4y2Ba tgydF4y2Ba 在gydF4y2Ba XgydF4y2Ba tgydF4y2Ba ,gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 如上所述。规则说,共线性的担忧可以忽略gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba 超过gydF4y2Ba RgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba 对于每一个预测,由于每个VIF将平衡了gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba RgydF4y2Ba 2gydF4y2Ba 。所有的潜在因素gydF4y2BaX0gydF4y2Ba通过这个测试:gydF4y2Ba

RSquared = M0.RsquaredgydF4y2Ba
RSquared =gydF4y2Ba结构体字段:gydF4y2Ba普通:0.6211调整:0.5264gydF4y2Ba
RSquared_i = 1 - 1. / (VIF)gydF4y2Ba
RSquared_i =gydF4y2Ba1×4gydF4y2Ba0.2790 0.4414 0.1814 0.1561gydF4y2Ba
predNames0gydF4y2Ba
predNames0 =gydF4y2Ba1 x4单元格gydF4y2Ba{“年龄”}{BBB的}{“论坛”}{SPR的}gydF4y2Ba

这些规则试图识别gydF4y2Ba后果gydF4y2Ba共线性,表达了回归结果。正如我们所看到的,他们可以提供相互矛盾的建议时,和多少,担心的完整性系数估计。他们不提供任何会计数据内的多个依赖项的性质,也不提供任何可靠的衡量在多大程度上这些依赖项降低回归。gydF4y2Ba

共线性诊断gydF4y2Ba

中提供了一个更详细的分析方法gydF4y2Ba[1]gydF4y2Ba。不稳定的OLS估计可以追溯到小特征值向量矩阵gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 出现在正常的方程gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba :gydF4y2Ba

βgydF4y2Ba ˆgydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba ygydF4y2Ba tgydF4y2Ba 。gydF4y2Ba

eigensystem Belsley引出的gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 矩阵的奇异值gydF4y2Ba XgydF4y2Ba tgydF4y2Ba ,然后可以直接分析,以更大的数值精度。如果的奇异值gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 是gydF4y2Ba μgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 。gydF4y2Ba 。gydF4y2Ba 。gydF4y2Ba ,gydF4y2Ba μgydF4y2Ba ngydF4y2Ba ,在那里gydF4y2Ba ngydF4y2Ba 预测的数量,那么条件数的gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 是gydF4y2Ba κgydF4y2Ba =gydF4y2Ba μgydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba /gydF4y2Ba μgydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 。Belsley定义一个范围的gydF4y2Ba条件指数gydF4y2Ba ηgydF4y2Ba jgydF4y2Ba =gydF4y2Ba μgydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba /gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 为每一个gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 。gydF4y2Ba 。gydF4y2Ba 。gydF4y2Ba ,gydF4y2Ba ngydF4y2Ba 附近,表明高指数显示单独的数据依赖关系。gydF4y2Ba

Belsley进一步通过描述一个方法对于识别所涉及的具体预测每个依赖附近,并提供一个衡量这些依赖关系是多么重要的影响系数估计。这是另一个分解的实现gydF4y2Ba VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba ,这一次的奇异值。如果gydF4y2Ba XgydF4y2Ba tgydF4y2Ba 有一个奇异值分解gydF4y2Ba UgydF4y2Ba 年代gydF4y2Ba VgydF4y2Ba TgydF4y2Ba ,gydF4y2Ba VgydF4y2Ba =gydF4y2Ba (gydF4y2Ba vgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba )gydF4y2Ba ,那么:gydF4y2Ba

VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba =gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba vgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba /gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba σgydF4y2Ba 2gydF4y2Ba 方差是创新。的gydF4y2Ba方差分解比例gydF4y2Ba πgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba 是由:gydF4y2Ba

ϕgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba vgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba /gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

ϕgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ϕgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba

πgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba ϕgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba /gydF4y2Ba ϕgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

的gydF4y2Ba πgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba 给的比例gydF4y2Ba VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba (gydF4y2Ba βgydF4y2Ba 我gydF4y2Ba ˆgydF4y2Ba )gydF4y2Ba 与奇异值gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 。gydF4y2Ba

指数和比例解释如下:gydF4y2Ba

  • 高条件的数量指标识别附近依赖项的数量。gydF4y2Ba

  • 条件指数的大小识别每个依赖关系的紧张。gydF4y2Ba

  • 高比例的位置在一个高指数行标识相关的预测。gydF4y2Ba

  • 比例的大小确定降解回归估计的程度。gydF4y2Ba

再次,必须确定“高”的宽容。Belsley的仿真实验表明,条件指数在5到10的范围反映弱依赖关系,以及那些在30至100反映了中度到高依赖性。他建议的公差0.5个人预测方差分解比例确定。仿真实验中,然而,必然是基于特定模型的相互依赖,所以公差在每个经验设置需要重新评估。gydF4y2Ba

这个函数gydF4y2BacollintestgydF4y2Ba实现Belsley的过程。输出显示在表格形式:gydF4y2Ba

collintest (X0ITbl);gydF4y2Ba
方差分解sValue condIdx Const年龄BBB CPF SPR - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 2.0605 - 1 0.0015 0.0024 0.0020 0.0140 0.0025 0.8008 2.5730 0.0016 0.0025 0.0004 0.8220 0.0023 0.2563 8.0400 0.0037 0.3208 0.0105 0.0004 0.3781 0.1710 12.0464 0.2596 0.0950 0.8287 0.1463 0.0001 0.1343 15.3405 0.7335 0.5793 0.1585 0.0173 0.6170gydF4y2Ba

如果我们降低指数10和维护公差比例0.5,公差分析识别一个薄弱之间的依赖关系gydF4y2Ba年龄gydF4y2Ba和gydF4y2BaSPRgydF4y2Ba在最后一行。它可以可视化通过设置gydF4y2Ba“tolIdx”gydF4y2Ba和gydF4y2Ba“tolProp”gydF4y2Ba参数gydF4y2BacollintestgydF4y2Ba和打开gydF4y2Ba“阴谋”gydF4y2Ba国旗:gydF4y2Ba

图collintest (X0ITbl,gydF4y2Ba“tolIdx”gydF4y2Ba10gydF4y2Ba“tolProp”gydF4y2Ba,0.5,gydF4y2Ba“显示”gydF4y2Ba,gydF4y2Ba“关闭”gydF4y2Ba,gydF4y2Ba“阴谋”gydF4y2Ba,gydF4y2Ba“上”gydF4y2Ba);gydF4y2Ba

图包含一个坐标轴对象。坐标轴对象与标题空白H g H空白我n d e x空白V r i c n c e空白d e o m p o s i t i o n s包含4线类型的对象。这些对象代表condIdx 12日condIdx 15.3, tolProp。gydF4y2Ba

方差分解的情节显示关键行表,上面指数宽容。行相关条件指数12只有一个预测,gydF4y2BaBBBgydF4y2Ba,比例高于宽容,而不是两个或两个以上的预测所需的依赖。行与病情指数15.3显示了涉及弱依赖gydF4y2Ba年龄gydF4y2Ba,gydF4y2BaSPRgydF4y2Ba和拦截。这种关系在最初的情节没有明显相关性矩阵。gydF4y2Ba

总之,各种各样的共线性诊断的结果是一致的数据没有附近有辱人格的关系存在。事实上,评估潜在的预测因子的经济意义(很容易迷失在一个纯粹的统计分析)不显示任何理论原因牢固的人际关系。不管弱依赖关系,OLS估计仍是蓝色,和标准错误的回归结果显示精度可能是可接受的对大多数建模的目的。gydF4y2Ba

岭回归gydF4y2Ba

最后,我们简要检查技术gydF4y2Ba岭回归gydF4y2Ba,这通常是建议在高钙治疗估计量方差与某种程度的共线性的模型数据。这项技术也可以用作共线性诊断。gydF4y2Ba

为了解决奇点附近的问题gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 岭回归估计,gydF4y2Ba βgydF4y2Ba ˆgydF4y2Ba 使用一个gydF4y2Ba正则化gydF4y2Ba正常的方程:gydF4y2Ba

βgydF4y2Ba ˆgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba dgydF4y2Ba ggydF4y2Ba egydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba +gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba ygydF4y2Ba tgydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba kgydF4y2Ba 是一个积极的gydF4y2Ba岭参数gydF4y2Ba和gydF4y2Ba 我gydF4y2Ba 是单位矩阵。微扰的对角线gydF4y2Ba XgydF4y2Ba tgydF4y2Ba TgydF4y2Ba XgydF4y2Ba tgydF4y2Ba 旨在提高特征值问题的调节和降低系数的方差估计。作为gydF4y2Ba kgydF4y2Ba 增加,岭估计成为偏向零,但降低方差可以产生一个更小的均方误差(MSE)相对于可比OLS估计,特别是在存在共线性。gydF4y2Ba

岭回归是由函数gydF4y2Ba脊gydF4y2Ba。检查结果的岭参数gydF4y2Ba kgydF4y2Ba ,一个gydF4y2Ba岭跟踪gydF4y2Ba[3]gydF4y2Ba生产:gydF4y2Ba

Mu0I =意味着(诊断接头(X0I ' * X0I));gydF4y2Ba%的叉积对角线gydF4y2Bak = 0: Mu0I / 10;gydF4y2Ba%的岭参数范围gydF4y2BaridgeBetas =脊(y0, X0, k, 0);gydF4y2Ba%与拦截系数高的模型gydF4y2Ba图绘制(k, ridgeBetas (2:,:)gydF4y2Ba“线宽”gydF4y2Ba2)xlim ([0 Mu0I / 10])传说(predNames0)包含(gydF4y2Ba“岭参数”gydF4y2Ba)ylabel (gydF4y2Ba“岭估计系数”gydF4y2Ba)标题(gydF4y2Ba“{\ bf岭跟踪}”gydF4y2Ba)轴gydF4y2Ba紧gydF4y2Ba网格gydF4y2Ba在gydF4y2Ba

图包含一个坐标轴对象。坐标轴对象与标题空白我d g e空白T R c e包含4线类型的对象。这些对象代表年龄,BBB,论坛,SPR。gydF4y2Ba

OLS估计,gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,出现在左边。岭估计的重要的问题是是否有减少MSE:gydF4y2Ba

[numRidgeParams, numRidgeBetas] =大小(ridgeBetas);y0Hat = X0I * ridgeBetas;起垄犁= repmat (y0, 1 numRidgeBetas) -y0Hat;RidgeSSE =起垄犁' *起垄犁;RidgeDFE = T0-numRidgeParams;RidgeMSE =诊断接头(RidgeSSE / RidgeDFE);图绘制(k, RidgeMSE,gydF4y2Ba“米”gydF4y2Ba,gydF4y2Ba“线宽”gydF4y2Ba,2)xlim ([0 Mu0I / 10])包含(gydF4y2Ba“岭参数”gydF4y2Ba)ylabel (gydF4y2BaMSE的gydF4y2Ba)标题(gydF4y2Ba“{\ bf岭MSE}”gydF4y2Ba)轴gydF4y2Ba紧gydF4y2Ba网格gydF4y2Ba在gydF4y2Ba

图包含一个坐标轴对象。坐标轴对象与标题空白R i d g e空白M S e包含一个类型的对象。gydF4y2Ba

情节展示了完全相反的一个希望在应用岭回归。MSE实际上增加在整个范围的岭参数,再次表明,没有明显的共线性岭回归到正确的数据。gydF4y2Ba

岭回归相关技术,gydF4y2Ba套索gydF4y2Ba示例中所描述的gydF4y2Ba时间序列回归V:预测选择gydF4y2Ba。gydF4y2Ba

总结gydF4y2Ba

这个例子都集中在性能的预测数据,会导致高OLS估计量的方差,因此不可靠系数估计。Belsley技术可用于识别特定的数据关系,导致这个问题,和评估对评估的影响程度。一个方法适应岭回归估计量方差。有选择地删除有问题的预测方法解决的例子gydF4y2Ba时间序列回归III:影响力的观察gydF4y2Ba和gydF4y2Ba时间序列回归V:预测选择gydF4y2Ba。gydF4y2Ba

引用gydF4y2Ba

[1]gydF4y2BaBelsley, d . A。,E. Kuh, and R. E. Welsh.回归诊断gydF4y2Ba。纽约,纽约州:约翰·威利& Sons Inc ., 1980年。gydF4y2Ba

[2]gydF4y2Ba不,a . T。gydF4y2Ba计量经济学的课程gydF4y2Ba。剑桥,麻州:哈佛大学出版社,1991年。gydF4y2Ba

[3]gydF4y2Ba马尔,a E。,R。W. Kennard. "Ridge Regression: Applications to Nonorthogonal Problems."技术计量学gydF4y2Ba。1号卷。12日,1970年,页69 - 82。gydF4y2Ba

[4]gydF4y2Ba硅藻土,C。gydF4y2Ba与MATLAB数值计算gydF4y2Ba。费城,宾夕法尼亚州:工业与应用数学学会,2004年。gydF4y2Ba

[5]gydF4y2Ba石头,R。“市场需求的分析。”gydF4y2Ba英国皇家统计学会杂志》上gydF4y2Ba。108卷,1945年,页1 - 98。gydF4y2Ba

[6]gydF4y2Ba里奇,j . M。gydF4y2Ba计量经济学导论gydF4y2Ba。哦:辛辛那提西南,2009年。gydF4y2Ba