时间序列回归III:有影响的观察
这个例子展示了如何在时间序列数据中检测有影响的观测值,并适应它们对多个线性回归模型的影响。这是关于时间序列回归的一系列示例中的第三个,在前面的示例中进行了演示。
简介
在考虑影响OLS估计的经验限制时,Belsley等人。[1]建议先解决共线性问题。下一步是寻找有影响的观测值,这些观测值的单独或分组存在对回归结果有可测量的影响。我们将“有影响的观察”这一度量概念与“异常值”这一更主观的概念区分开来,后者可能包括任何不符合预期模式的数据。
我们从加载前一个示例中的相关数据开始时间序列回归II:共线性和估计方差,并继续分析文中提出的信用违约模型:
负载Data_TSReg2dt = datetime(dateNums,“ConvertFrom”,“datenum”,“格式”,“yyyy”);
有影响力的观察
有影响力的观察以两种截然不同的方式出现。首先,它们可能是测量或记录错误的结果。在这种情况下,它们只是坏数据,不利于模型估计。另一方面,它们可能反映了创新过程的真实分布,表现出模型无法解释的异方差、偏态或瘦峰度。这样的观测可能包含异常的样本信息,但这对于准确的模型估计是必不可少的。单看数据很难确定有影响的观测的类型。最好的线索通常在产生残差序列的数据模型交互中找到。我们将在本例中进一步研究这些问题时间序列回归VI:剩余诊断.
对影响观测值的预处理有三个组成部分:识别、影响评估和调节。在计量经济学中,识别和影响评估通常基于回归统计。调整(如果有的话)通常是在删除数据(这需要对DGP进行假设)和实施适当的稳健估计程序(有可能掩盖异常但可能重要的信息)之间做出选择。
时间序列数据与横断面数据的不同之处在于,删除观测值会在样本的时间基础上留下“漏洞”。输入替换值的标准方法,如平滑,违反了CLM严格外部性的假设。如果时间序列数据表现出序列相关性,就像它们在经济环境中经常做的那样,删除观测值将改变估计的自相关性。通过残差分析诊断偏离模型规范的能力受到了损害。因此,建模过程必须在诊断和重新规范之间循环,直到可接受的系数估计产生可接受的残差系列。
删除诊断
这个函数fitlm
计算用于测量单个观测值的影响的许多标准回归统计量。这些都是基于一次一个的序列行删除联合观察的预测值和响应值。为每个delete-1数据集计算回归统计信息,并与完整数据集的统计信息进行比较。
系数估计值的显著变化
删除后主要关注的是观察结果。拟合模型属性Diagnostics.dfBetas
通过估计个体系数方差来衡量这些差异,以便进行比较:
dfBetas = m . diagnostics .dfBetas;图保存在情节(dt, dfBetas(:, 2:结束),“线宽”2)图(dt dfBetas (: 1),“k”,“线宽”, 2)从传奇([predNames0,“拦截”],“位置”,“最佳”)包含(“观察删除”) ylabel (“系数估计的比例变化”)标题(“{\bf删除-1系数估计变化}”)轴紧网格在
中删除组件对的影响 可见于变化的二维散点图矩阵中:
图gplotmatrix (dfBetas ,[],[],[],“o”2 []...“变量”, (“常量”predNames0]);标题(“{\bf删除-1系数估计变化}”)
有了足够的数据,这些散射体趋向于近似椭圆[2].通过键入,可以用相应的已删除观测值的名称标记离点gname (dt)
在命令提示符下,然后单击图中的一个点。
另外,库克的距离,可在诊断。CooksDistance
拟合模型的性质,是这些图的一个常见的总结统计量,等高线形成椭圆围绕
(即,dfBeta = 0
).在多个图中,远离中心的点有很大的库克距离,这表明了一个有影响力的观察:
cookD = m . diagnostics . cooksdistance;图;情节(dt, cookD“米”,“线宽”2) recessionplot;包含(“观察”);ylabel (“库克的距离”);标题(“{\bf Cook' s Distance}”);轴(“紧”);网格(“上”);
如果 估计的系数向量是 从观测数据中删除,那么库克距离也就是欧几里得距离
而且
因此,库克距离是观测值对拟合响应值影响的直接度量。
一个相关的衡量影响力的方法是利用,用正规方程来写
在哪里
是帽子矩阵,仅从预测数据计算。的对角线元素
杠杆值是否给出了观察到的部分比例
贡献相应的估计
.杠杆值,在诊断。利用
拟合模型的性质,强调不同的影响来源:
杠杆= m . diagnostics . leverage;图;情节(dt,杠杆,“米”,“线宽”2) recessionplot;包含(“观察”);ylabel (“杠杆”);标题(“{\高炉利用}”);轴(“紧”);网格(“上”);
另一种常用的衡量影响力的方法是Mahalanobis距离只是杠杆的放大版。马哈拉诺比斯山脉向内X0
可以使用以下方法计算d = mahal(X0,X0)
,在这种情况下,杠杆值由h = d/(T0-1)+(1/T0)
.
属性中的其他统计信息可以创建其他诊断图诊断
拟合模型的属性,或通过使用plotDiagnostics
函数。
经济意义
在删除数据之前,应赋予各种措施确定的影响点某种经济意义。与总体反应变化相关的库克距离在2001年出现了一个急剧的峰值。仅与预测数据相关的杠杆率在1988年急剧上升。同样值得注意的是,在杠杆率突然增加和一段时间的高违约率之后,预测者BBB
1991年以后开始向上弯曲,低评级债券的比例开始呈现趋势。(参见示例中的预测器图时间序列回归I:线性模型.)
我们可以从当时的经济史中找到一些线索。2001年是美国经济的衰退期(上图中的第二个垂直波段),部分原因是投机性互联网泡沫的破裂和商业投资的减少。也是在这一年,9 / 11恐怖袭击事件对债券市场造成了严重冲击。那一年剩下的时间里,投资决策的特点是不确定性,而不是可量化的风险。另一方面,20世纪80年代见证了债券市场特征长期变化的开始。新发行的高收益债券,后来被称为“垃圾债券”,被用于为许多公司重组项目提供资金。这部分债券市场在1989年崩溃。在经历了1990-1991年的经济衰退(上图中第一个垂直波段)和油价冲击之后,高收益市场开始再次增长,并走向成熟。
删除数据的决定最终取决于模型的目的。如果目的主要是解释,删除准确记录的数据是不合适的。然而,如果目的是预测,那么必须问,删除点是否会创建一个更“典型”的过去和未来的预样本。例如,2001年数据的历史背景可能导致这样的结论,即它歪曲了历史模式,不应让它影响预测模型。同样,1980年代的历史可以得出这样的结论,即债券市场发生了结构性变化,在新制度的预测中应忽略1991年以前的数据。
为了便于参考,我们创建了两个修正后的数据集:
%删除2001:D1 = (dt ~=“2001”);%删除1Datesd1 = dt(d1);Xd1 = X0(d1,:);Yd1 = y0(d1);%同时删除1991年以前的日期:Dm = (datesd1 >=“1991”);%删除多个Datesdm = datesd1(dm);Xdm = Xd1(dm,:);Ydm = yd1(dm);
总结
删除对模型估计的影响总结如下。表格数组提供了一种方便的格式来比较模型之间的回归统计数据:
Md1 = fitlm(Xd1,yd1);Mdm = fitlm(Xdm,ydm);模型均方误差:MSEs = table(M0。MSE,...Md1。MSE,...Mdm。MSE,...“VariableNames”,{“原始”,“Delete01”,“Post90”},...“RowNames”,{MSE的})
为了=1×3表原始Delete01 Post90 _________ _________ _________ MSE 0.0058287 0.0032071 0.0023762
%系数估计:系数=表(m . coefficients . estimate,...Md1.Coefficients.Estimate,...Mdm.Coefficients.Estimate,...“VariableNames”,{“原始”,“Delete01”,“Post90”},...“RowNames”, (“常量”, predNames0])
多项式系数=5×3表原始Delete01 Post90 _________ __________ _________ Const -0.22741 -0.12821 -0.13529 AGE 0.016781 0.016635 0.014107 BBB 0.0042728 0.0017657 0.0016663 CPF -0.014888 -0.0098507 -0.010577 SPR 0.045488 0.024171 0.041719
系数标准误差:StdErrs = table(m . coefficients . se,...Md1.Coefficients.SE,...Mdm.Coefficients.SE,...“VariableNames”,{“原始”,“Delete01”,“Post90”},...“RowNames”, (“常量”, predNames0])
stderr =5×3表原始Delete01 Post90 _________ _________ _________ Const 0.098565 0.077746 0.086073 AGE 0.0091845 0.0068129 0.013024 BBB 0.0026757 0.0020942 0.0030328 CPF 0.0038077 0.0031273 0.0041749 SPR 0.033996 0.025849 0.027367
删除2001年的点,然后删除1991年以前的数据,MSE有所改善。删除2001年的点也有收紧系数估计的标准误差的影响。然而,删除1991年之前的所有数据会严重减少样本量,一些估计的标准误差比原始数据的标准误差更大。
参考文献
[1]贝尔斯利,D. A.库赫,R. E.威尔士。回归诊断.纽约:约翰·威利父子公司,1980年。
[2]韦斯伯格,S。应用线性回归.霍博肯,新泽西州:约翰·威利父子公司,2005年。