主要内容

时间序列回归III:有影响的观察

这个例子展示了如何在时间序列数据中检测有影响的观测值,并适应它们对多个线性回归模型的影响。这是关于时间序列回归的一系列示例中的第三个,在前面的示例中进行了演示。

简介

在考虑影响OLS估计的经验限制时,Belsley等人。[1]建议先解决共线性问题。下一步是寻找有影响的观测值,这些观测值的单独或分组存在对回归结果有可测量的影响。我们将“有影响的观察”这一度量概念与“异常值”这一更主观的概念区分开来,后者可能包括任何不符合预期模式的数据。

我们从加载前一个示例中的相关数据开始时间序列回归II:共线性和估计方差,并继续分析文中提出的信用违约模型:

负载Data_TSReg2dt = datetime(dateNums,“ConvertFrom”“datenum”“格式”“yyyy”);

有影响力的观察

有影响力的观察以两种截然不同的方式出现。首先,它们可能是测量或记录错误的结果。在这种情况下,它们只是坏数据,不利于模型估计。另一方面,它们可能反映了创新过程的真实分布,表现出模型无法解释的异方差、偏态或瘦峰度。这样的观测可能包含异常的样本信息,但这对于准确的模型估计是必不可少的。单看数据很难确定有影响的观测的类型。最好的线索通常在产生残差序列的数据模型交互中找到。我们将在本例中进一步研究这些问题时间序列回归VI:剩余诊断

对影响观测值的预处理有三个组成部分:识别、影响评估和调节。在计量经济学中,识别和影响评估通常基于回归统计。调整(如果有的话)通常是在删除数据(这需要对DGP进行假设)和实施适当的稳健估计程序(有可能掩盖异常但可能重要的信息)之间做出选择。

时间序列数据与横断面数据的不同之处在于,删除观测值会在样本的时间基础上留下“漏洞”。输入替换值的标准方法,如平滑,违反了CLM严格外部性的假设。如果时间序列数据表现出序列相关性,就像它们在经济环境中经常做的那样,删除观测值将改变估计的自相关性。通过残差分析诊断偏离模型规范的能力受到了损害。因此,建模过程必须在诊断和重新规范之间循环,直到可接受的系数估计产生可接受的残差系列。

删除诊断

这个函数fitlm计算用于测量单个观测值的影响的许多标准回归统计量。这些都是基于一次一个的序列行删除联合观察的预测值和响应值。为每个delete-1数据集计算回归统计信息,并与完整数据集的统计信息进行比较。

系数估计值的显著变化 β ˆ 删除后主要关注的是观察结果。拟合模型属性Diagnostics.dfBetas通过估计个体系数方差来衡量这些差异,以便进行比较:

dfBetas = m . diagnostics .dfBetas;图保存情节(dt, dfBetas(:, 2:结束),“线宽”2)图(dt dfBetas (: 1),“k”“线宽”, 2)传奇([predNames0,“拦截”],“位置”“最佳”)包含(“观察删除”) ylabel (“系数估计的比例变化”)标题(“{\bf删除-1系数估计变化}”)轴网格

图中包含一个轴对象。标题为空白D e e e - 1空白C o e f f i i i e nt空白es ti m a e空白C h an es的轴对象包含5个类型为line的对象。这些对象代表AGE, BBB, CPF, SPR,截距。

中删除组件对的影响 β ˆ 可见于变化的二维散点图矩阵中:

图gplotmatrix (dfBetas ,[],[],[],“o”2 []...“变量”, (“常量”predNames0]);标题(“{\bf删除-1系数估计变化}”

图中包含25个轴对象。Axes对象1包含一个line类型的对象。坐标轴对象2包含一个line类型的对象。Axes对象3包含一个line类型的对象。Axes对象4包含一个line类型的对象。Axes对象5包含一个text类型的对象。Axes对象6包含一个line类型的对象。Axes对象7包含一个line类型的对象。Axes对象8包含一个line类型的对象。Axes对象9包含一个text类型的对象。 Axes object 10 contains an object of type line. Axes object 11 contains an object of type line. Axes object 12 contains an object of type line. Axes object 13 contains an object of type text. Axes object 14 contains an object of type line. Axes object 15 contains an object of type line. Axes object 16 contains an object of type line. Axes object 17 contains an object of type text. Axes object 18 contains an object of type line. Axes object 19 contains an object of type line. Axes object 20 contains an object of type line. Axes object 21 contains an object of type text. Axes object 22 contains an object of type line. Axes object 23 contains an object of type line. Axes object 24 contains an object of type line. Axes object 25 contains an object of type line.

有了足够的数据,这些散射体趋向于近似椭圆[2].通过键入,可以用相应的已删除观测值的名称标记离点gname (dt)在命令提示符下,然后单击图中的一个点。

另外,库克的距离,可在诊断。CooksDistance拟合模型的性质,是这些图的一个常见的总结统计量,等高线形成椭圆围绕 β ˆ (即,dfBeta = 0).在多个图中,远离中心的点有很大的库克距离,这表明了一个有影响力的观察:

cookD = m . diagnostics . cooksdistance;图;情节(dt, cookD“米”“线宽”2) recessionplot;包含(“观察”);ylabel (“库克的距离”);标题(“{\bf Cook' s Distance}”);轴(“紧”);网格(“上”);

图中包含一个轴对象。标题为空白C o o k s空白D i s t ne的坐标轴对象包含3个类型为line、patch的对象。

如果 β ˆ 估计的系数向量是 t h 从观测数据中删除,那么库克距离也就是欧几里得距离

y t ˆ X t β ˆ

而且

y t ˆ X t β ˆ

因此,库克距离是观测值对拟合响应值影响的直接度量。

一个相关的衡量影响力的方法是利用,用正规方程来写

y t ˆ X t β ˆ X t X t T X t - 1 X t T y t H y t

在哪里 H 帽子矩阵,仅从预测数据计算。的对角线元素 H 杠杆值是否给出了观察到的部分比例 y t 贡献相应的估计 y t ˆ .杠杆值,在诊断。利用拟合模型的性质,强调不同的影响来源:

杠杆= m . diagnostics . leverage;图;情节(dt,杠杆,“米”“线宽”2) recessionplot;包含(“观察”);ylabel (“杠杆”);标题(“{\高炉利用}”);轴(“紧”);网格(“上”);

图中包含一个轴对象。标题为空的axis对象包含3个类型为line、patch的对象。

另一种常用的衡量影响力的方法是Mahalanobis距离只是杠杆的放大版。马哈拉诺比斯山脉向内X0可以使用以下方法计算d = mahal(X0,X0),在这种情况下,杠杆值由h = d/(T0-1)+(1/T0)

属性中的其他统计信息可以创建其他诊断图诊断拟合模型的属性,或通过使用plotDiagnostics函数。

经济意义

在删除数据之前,应赋予各种措施确定的影响点某种经济意义。与总体反应变化相关的库克距离在2001年出现了一个急剧的峰值。仅与预测数据相关的杠杆率在1988年急剧上升。同样值得注意的是,在杠杆率突然增加和一段时间的高违约率之后,预测者BBB1991年以后开始向上弯曲,低评级债券的比例开始呈现趋势。(参见示例中的预测器图时间序列回归I:线性模型.)

我们可以从当时的经济史中找到一些线索。2001年是美国经济的衰退期(上图中的第二个垂直波段),部分原因是投机性互联网泡沫的破裂和商业投资的减少。也是在这一年,9 / 11恐怖袭击事件对债券市场造成了严重冲击。那一年剩下的时间里,投资决策的特点是不确定性,而不是可量化的风险。另一方面,20世纪80年代见证了债券市场特征长期变化的开始。新发行的高收益债券,后来被称为“垃圾债券”,被用于为许多公司重组项目提供资金。这部分债券市场在1989年崩溃。在经历了1990-1991年的经济衰退(上图中第一个垂直波段)和油价冲击之后,高收益市场开始再次增长,并走向成熟。

删除数据的决定最终取决于模型的目的。如果目的主要是解释,删除准确记录的数据是不合适的。然而,如果目的是预测,那么必须问,删除点是否会创建一个更“典型”的过去和未来的预样本。例如,2001年数据的历史背景可能导致这样的结论,即它歪曲了历史模式,不应让它影响预测模型。同样,1980年代的历史可以得出这样的结论,即债券市场发生了结构性变化,在新制度的预测中应忽略1991年以前的数据。

为了便于参考,我们创建了两个修正后的数据集:

%删除2001:D1 = (dt ~=“2001”);%删除1Datesd1 = dt(d1);Xd1 = X0(d1,:);Yd1 = y0(d1);%同时删除1991年以前的日期:Dm = (datesd1 >=“1991”);%删除多个Datesdm = datesd1(dm);Xdm = Xd1(dm,:);Ydm = yd1(dm);

总结

删除对模型估计的影响总结如下。表格数组提供了一种方便的格式来比较模型之间的回归统计数据:

Md1 = fitlm(Xd1,yd1);Mdm = fitlm(Xdm,ydm);模型均方误差:MSEs = table(M0。MSE,...Md1。MSE,...Mdm。MSE,...“VariableNames”,{“原始”“Delete01”“Post90”},...“RowNames”,{MSE的})
为了=1×3表原始Delete01 Post90  _________ _________ _________ MSE 0.0058287 0.0032071 0.0023762
%系数估计:系数=表(m . coefficients . estimate,...Md1.Coefficients.Estimate,...Mdm.Coefficients.Estimate,...“VariableNames”,{“原始”“Delete01”“Post90”},...“RowNames”, (“常量”, predNames0])
多项式系数=5×3表原始Delete01 Post90 _________ __________ _________ Const -0.22741 -0.12821 -0.13529 AGE 0.016781 0.016635 0.014107 BBB 0.0042728 0.0017657 0.0016663 CPF -0.014888 -0.0098507 -0.010577 SPR 0.045488 0.024171 0.041719
系数标准误差:StdErrs = table(m . coefficients . se,...Md1.Coefficients.SE,...Mdm.Coefficients.SE,...“VariableNames”,{“原始”“Delete01”“Post90”},...“RowNames”, (“常量”, predNames0])
stderr =5×3表原始Delete01 Post90 _________ _________ _________ Const 0.098565 0.077746 0.086073 AGE 0.0091845 0.0068129 0.013024 BBB 0.0026757 0.0020942 0.0030328 CPF 0.0038077 0.0031273 0.0041749 SPR 0.033996 0.025849 0.027367

删除2001年的点,然后删除1991年以前的数据,MSE有所改善。删除2001年的点也有收紧系数估计的标准误差的影响。然而,删除1991年之前的所有数据会严重减少样本量,一些估计的标准误差比原始数据的标准误差更大。

参考文献

[1]贝尔斯利,D. A.库赫,R. E.威尔士。回归诊断.纽约:约翰·威利父子公司,1980年。

[2]韦斯伯格,S。应用线性回归.霍博肯,新泽西州:约翰·威利父子公司,2005年。