时间序列回归III:有影响的观察

打开实时脚本

这个例子展示了如何在时间序列数据中检测有影响的观测值，并适应它们对多个线性回归模型的影响。这是关于时间序列回归的一系列示例中的第三个，在前面的示例中进行了演示。

简介

在考虑影响OLS估计的经验限制时，Belsley等人。[1]建议先解决共线性问题。下一步是寻找有影响的观测值，这些观测值的单独或分组存在对回归结果有可测量的影响。我们将“有影响的观察”这一度量概念与“异常值”这一更主观的概念区分开来，后者可能包括任何不符合预期模式的数据。

我们从加载前一个示例中的相关数据开始时间序列回归II:共线性和估计方差，并继续分析文中提出的信用违约模型:

负载Data_TSReg2dt = datetime(dateNums，“ConvertFrom”，“datenum”，“格式”，“yyyy”）;

有影响力的观察

有影响力的观察以两种截然不同的方式出现。首先，它们可能是测量或记录错误的结果。在这种情况下，它们只是坏数据，不利于模型估计。另一方面，它们可能反映了创新过程的真实分布，表现出模型无法解释的异方差、偏态或瘦峰度。这样的观测可能包含异常的样本信息，但这对于准确的模型估计是必不可少的。单看数据很难确定有影响的观测的类型。最好的线索通常在产生残差序列的数据模型交互中找到。我们将在本例中进一步研究这些问题时间序列回归VI:剩余诊断．

对影响观测值的预处理有三个组成部分:识别、影响评估和调节。在计量经济学中，识别和影响评估通常基于回归统计。调整(如果有的话)通常是在删除数据(这需要对DGP进行假设)和实施适当的稳健估计程序(有可能掩盖异常但可能重要的信息)之间做出选择。

时间序列数据与横断面数据的不同之处在于，删除观测值会在样本的时间基础上留下“漏洞”。输入替换值的标准方法，如平滑，违反了CLM严格外部性的假设。如果时间序列数据表现出序列相关性，就像它们在经济环境中经常做的那样，删除观测值将改变估计的自相关性。通过残差分析诊断偏离模型规范的能力受到了损害。因此，建模过程必须在诊断和重新规范之间循环，直到可接受的系数估计产生可接受的残差系列。

删除诊断

这个函数fitlm计算用于测量单个观测值的影响的许多标准回归统计量。这些都是基于一次一个的序列行删除联合观察的预测值和响应值。为每个delete-1数据集计算回归统计信息，并与完整数据集的统计信息进行比较。

系数估计值的显著变化 $β_{}^{ˆ}$ 删除后主要关注的是观察结果。拟合模型属性Diagnostics.dfBetas通过估计个体系数方差来衡量这些差异，以便进行比较:

dfBetas = m . diagnostics .dfBetas;图保存在情节(dt, dfBetas(:, 2:结束),“线宽”2)图(dt dfBetas (: 1),“k”，“线宽”, 2)从传奇([predNames0,“拦截”]，“位置”，“最佳”)包含(“观察删除”) ylabel (“系数估计的比例变化”)标题(“{\bf删除-1系数估计变化}”)轴紧网格在

图中包含一个轴对象。标题为空白D e e e - 1空白C o e f f i i i e nt空白es ti m a e空白C h an es的轴对象包含5个类型为line的对象。这些对象代表AGE, BBB, CPF, SPR，截距。

中删除组件对的影响 $β_{}^{ˆ}$ 可见于变化的二维散点图矩阵中:

图gplotmatrix (dfBetas ,[],[],[],“o”2 [].．.“变量”, (“常量”predNames0]);标题(“{\bf删除-1系数估计变化}”）

有了足够的数据，这些散射体趋向于近似椭圆[２]．通过键入，可以用相应的已删除观测值的名称标记离点gname (dt)在命令提示符下，然后单击图中的一个点。

另外,库克的距离，可在诊断。CooksDistance拟合模型的性质，是这些图的一个常见的总结统计量，等高线形成椭圆围绕 $β_{}^{ˆ}$ (即,dfBeta = 0)．在多个图中，远离中心的点有很大的库克距离，这表明了一个有影响力的观察:

cookD = m . diagnostics . cooksdistance;图;情节(dt, cookD“米”，“线宽”2) recessionplot;包含(“观察”）;ylabel (“库克的距离”）;标题(“{\bf Cook' s Distance}”）;轴(“紧”）;网格(“上”）;

图中包含一个轴对象。标题为空白C o o k s空白D i s t ne的坐标轴对象包含3个类型为line、patch的对象。

如果 ${β_{}^{ˆ}}_{（我）}$ 估计的系数向量是 $我^{t h}$ 从观测数据中删除，那么库克距离也就是欧几里得距离

${y_{t}}_{}^{ˆ} ＝ X_{t} β_{}^{ˆ}$

而且

${y_{t}}_{}^{ˆ}_{（我）} ＝ X_{t} {β_{}^{ˆ}}_{（我）} ．$

因此，库克距离是观测值对拟合响应值影响的直接度量。

一个相关的衡量影响力的方法是利用，用正规方程来写

${y_{t}}_{}^{ˆ} ＝ X_{t} β_{}^{ˆ} ＝ X_{t} （ X_{t}^{T} X_{t} ）^{- 1} X_{t}^{T} y_{t} ＝ H y_{t} ，$

在哪里 $H$ 是帽子矩阵，仅从预测数据计算。的对角线元素 $H$ 杠杆值是否给出了观察到的部分比例 $y_{t}$ 贡献相应的估计 ${y_{t}}_{}^{ˆ}$ ．杠杆值，在诊断。利用拟合模型的性质，强调不同的影响来源:

杠杆= m . diagnostics . leverage;图;情节(dt,杠杆,“米”，“线宽”2) recessionplot;包含(“观察”）;ylabel (“杠杆”）;标题(“{\高炉利用}”）;轴(“紧”）;网格(“上”）;

图中包含一个轴对象。标题为空的axis对象包含3个类型为line、patch的对象。

另一种常用的衡量影响力的方法是Mahalanobis距离只是杠杆的放大版。马哈拉诺比斯山脉向内X0可以使用以下方法计算d = mahal(X0,X0)，在这种情况下，杠杆值由h = d/(T0-1)+(1/T0)．

属性中的其他统计信息可以创建其他诊断图诊断拟合模型的属性，或通过使用plotDiagnostics函数。

经济意义

在删除数据之前，应赋予各种措施确定的影响点某种经济意义。与总体反应变化相关的库克距离在2001年出现了一个急剧的峰值。仅与预测数据相关的杠杆率在1988年急剧上升。同样值得注意的是，在杠杆率突然增加和一段时间的高违约率之后，预测者BBB1991年以后开始向上弯曲，低评级债券的比例开始呈现趋势。(参见示例中的预测器图时间序列回归I:线性模型．）

我们可以从当时的经济史中找到一些线索。2001年是美国经济的衰退期(上图中的第二个垂直波段)，部分原因是投机性互联网泡沫的破裂和商业投资的减少。也是在这一年，9 / 11恐怖袭击事件对债券市场造成了严重冲击。那一年剩下的时间里，投资决策的特点是不确定性，而不是可量化的风险。另一方面，20世纪80年代见证了债券市场特征长期变化的开始。新发行的高收益债券，后来被称为“垃圾债券”，被用于为许多公司重组项目提供资金。这部分债券市场在1989年崩溃。在经历了1990-1991年的经济衰退(上图中第一个垂直波段)和油价冲击之后，高收益市场开始再次增长，并走向成熟。

删除数据的决定最终取决于模型的目的。如果目的主要是解释，删除准确记录的数据是不合适的。然而，如果目的是预测，那么必须问，删除点是否会创建一个更“典型”的过去和未来的预样本。例如，2001年数据的历史背景可能导致这样的结论，即它歪曲了历史模式，不应让它影响预测模型。同样，1980年代的历史可以得出这样的结论，即债券市场发生了结构性变化，在新制度的预测中应忽略1991年以前的数据。

为了便于参考，我们创建了两个修正后的数据集:

%删除2001:D1 = (dt ~=“2001”）;%删除1Datesd1 = dt(d1);Xd1 = X0(d1，:);Yd1 = y0(d1);%同时删除1991年以前的日期:Dm = (datesd1 >=“1991”）;%删除多个Datesdm = datesd1(dm);Xdm = Xd1(dm，:);Ydm = yd1(dm);

总结

删除对模型估计的影响总结如下。表格数组提供了一种方便的格式来比较模型之间的回归统计数据:

Md1 = fitlm(Xd1,yd1);Mdm = fitlm(Xdm,ydm);模型均方误差:MSEs = table(M0。MSE,.．.Md1。MSE,.．.Mdm。MSE,.．.“VariableNames”,{“原始”，“Delete01”，“Post90”}，.．.“RowNames”,{MSE的}）

为了=1×3表原始Delete01 Post90  _________ _________ _________ MSE 0.0058287 0.0032071 0.0023762

%系数估计:系数=表(m . coefficients . estimate，.．.Md1.Coefficients.Estimate,.．.Mdm.Coefficients.Estimate,.．.“VariableNames”,{“原始”，“Delete01”，“Post90”}，.．.“RowNames”, (“常量”, predNames0])

多项式系数=5×3表原始Delete01 Post90 _________ __________ _________ Const -0.22741 -0.12821 -0.13529 AGE 0.016781 0.016635 0.014107 BBB 0.0042728 0.0017657 0.0016663 CPF -0.014888 -0.0098507 -0.010577 SPR 0.045488 0.024171 0.041719

系数标准误差:StdErrs = table(m . coefficients . se，.．.Md1.Coefficients.SE,.．.Mdm.Coefficients.SE,.．.“VariableNames”,{“原始”，“Delete01”，“Post90”}，.．.“RowNames”, (“常量”, predNames0])

stderr =5×3表原始Delete01 Post90 _________ _________ _________ Const 0.098565 0.077746 0.086073 AGE 0.0091845 0.0068129 0.013024 BBB 0.0026757 0.0020942 0.0030328 CPF 0.0038077 0.0031273 0.0041749 SPR 0.033996 0.025849 0.027367

删除2001年的点，然后删除1991年以前的数据，MSE有所改善。删除2001年的点也有收紧系数估计的标准误差的影响。然而，删除1991年之前的所有数据会严重减少样本量，一些估计的标准误差比原始数据的标准误差更大。

参考文献

[1]贝尔斯利，D. A.库赫，R. E.威尔士。回归诊断．纽约:约翰·威利父子公司，1980年。

[２]韦斯伯格,S。应用线性回归．霍博肯，新泽西州:约翰·威利父子公司，2005年。