时间序列回归III：有影响的观察

打开生活的脚本

这个例子展示了如何在时间序列数据中检测有影响的观测，并适应它们对多元线性回归模型的影响。这是关于时间序列回归的一系列例子中的第三个，在前面的例子中有介绍。

介绍

当考虑影响OLS估计的经验限制时，Belsley等人。［１］建议先处理共线。下一步是寻找有影响力的观察，其存在，个人或团体，对回归结果有可衡量的影响。我们将“有影响力的观察”的基本度量概念与“离群值”的更主观的概念区分开来，“离群值”可能包括任何不遵循预期模式的数据。

我们首先从前面的示例中加载相关数据时间序列回归Ⅱ：共线性和估计方差，并继续分析此处介绍的信用违约模型：

负载Data_TSReg2dt = datetime (dateNums“ConvertFrom”，“datenum”，“格式”，“yyyy”）;

有影响的观察

有影响力的观察以两种截然不同的方式产生。首先，它们可能是测量或记录误差的结果。在这种情况下，它们只是坏数据，不利于模型估计。另一方面，它们可能反映了创新过程的真实分布，表现出模型无法解释的异方差、偏度或细峰度。这种观测可能包含异常的样本信息，但这对准确的模型估计是必不可少的。仅看数据很难确定有影响的观察的类型。最好的线索通常可以在产生残差序列的数据模型交互中找到。我们将在示例中进一步研究这些问题时间序列回归VI:残留诊断．

预处理有影响的观测有三个部分：识别、影响评估和适应。在计量经济学环境中，识别和影响评估通常基于回归统计。适应（如果有）通常是在删除数据之间进行选择，这需要对DGP作出假设，或实施适当稳健的估计程序，有可能掩盖异常但可能重要的信息。

时间序列数据与横断面数据的不同之处在于，删除观测值会在样本的时间基础上留下“漏洞”。输入替代值的标准方法，如平滑，违反了CLM的严格外部性假设。如果时间序列数据显示出序列相关性，就像它们在经济环境中经常做的那样，删除观察值将改变估计的自相关性。通过残差分析诊断偏离模型规范的能力受到了损害。因此，建模过程必须在诊断和重新规范之间循环，直到可接受的系数估计产生可接受的残差系列。

删除诊断

这个函数菲特姆计算许多标准回归统计量，用于衡量个别观察的影响。这些都是基于一个接一个的序列行删除联合观察的预测器和响应值。计算每个删除-1数据集的回归统计数据，并与完整数据集的统计数据进行比较。

系数估计值的显著变化 $β_{}^{ˆ}$ 删除后的观察是主要关注的。拟合模型特性Diagnostics.dfBetas通过对个体系数方差的估计来衡量这些差异，以便进行比较:

dfBetas=M0.Diagnostics.dfBetas；数字保持在情节(dt, dfBetas(:, 2:结束),“线宽”图（dt，dfBetas（：，1），“k”，“线宽”，2）保持从图例（[0，“拦截”]，“位置”，“最好的”)包含(“观察删除”) ylabel (“系数估算中的比例变化”)标题(“{\bf Delete-1系数估计值变化}”)轴心紧网格在

图中包含一个轴对象。标题为空白D e e e - 1空白C e e e f e e e e e e t t e e t e e e e he n g的轴对象包含5个类型为line的对象。这些物体代表AGE, BBB, CPF, SPR, Intercept。

删除对中组件对的影响 $β_{}^{ˆ}$ 在变化的二维散点图矩阵中显示：

图gplotmatrix (dfBetas ,[],[],[],“o”2 []...“变量”, (“常量”predNames0]);标题(“{\bf Delete-1系数估计值变化}”）

有了足够的数据，这些散射趋于近似椭圆形［２］．通过键入，可以用相应删除的观测值的名称来标记离点gname (dt)在命令提示符处，然后单击图中的一个点。

或者，库克距离，发现于诊断。CooksDistance拟合模型的属性是这些图的一个常见汇总统计，等高线形成以等高线为中心的椭圆 $β_{}^{ˆ}$ (即,dfBeta = 0)．在多个情节中，远离中心的点有很大的库克距离，表明一个有影响力的观察:

cookD=M0.Diagnostics.CooksDistance；图；绘图（dt，cookD，“米”，“线宽”2) recessionplot;包含(“观察”）;ylabel (“库克的距离”）;标题({\男朋友做饭”年代距离}); 轴心(“紧”）;网格(“开”）;

图中包含一个axes对象。标题为blank C o o k的axes对象的blank D i s t a n C e包含3个line、patch类型的对象。

如果 ${β_{}^{ˆ}}_{（我）}$ 估计的系数向量是 $我^{T H}$ 从观测数据中删除，那么库克的距离也就是欧氏距离

${Y_{T}}_{}^{ˆ} ＝ X_{T} β_{}^{ˆ}$

和

${Y_{T}}_{}^{ˆ}_{（我）} ＝ X_{T} {β_{}^{ˆ}}_{（我）} ．$

因此，库克距离可以直接衡量观察结果对拟合响应值的影响。

一个相关的影响度量是利用，它使用法线方程来编写

${Y_{T}}_{}^{ˆ} ＝ X_{T} β_{}^{ˆ} ＝ X_{T} （ X_{T}^{T} X_{T} ）^{- 1} X_{T}^{T} Y_{T} ＝ H Y_{T} ，$

哪里 $H$ 是帽子矩阵，仅从预测数据计算。的对角元素 $H$ 是杠杆值，给出了观察到的资产的组成比例 $Y_{T}$ 为相应的估算做出贡献 ${Y_{T}}_{}^{ˆ}$ .杠杆值，可在诊断。利用拟合模型的属性，强调不同的影响源：

杠杆= M0.Diagnostics.Leverage;图;情节(dt,杠杆,“米”，“线宽”2) recessionplot;包含(“观察”）;ylabel (“杠杆”）;标题(“{\高炉利用}”); 轴心(“紧”）;网格(“开”）;

图中包含一个轴对象。标题为空白的轴对象包含3个类型为line, patch的对象。

另一个衡量影响力的常用标准是Mahalanobis距离，这只是杠杆的放大版。马氏距离X0可以使用d=马哈尔（X0，X0），在这种情况下，杠杆值为h = d / (T0-1) + (1 / T0)．

的其他统计信息可以创建附加的诊断图诊断学拟合模型的属性，或使用plotDiagnostics作用

经济意义

在删除数据之前，应对各种措施所确定的有影响的点赋予某种经济意义。库克距离与总体反应的变化相关，在2001年急剧上升。仅与预测数据相关的杠杆率在1988年就出现了急剧上升。同样值得注意的是，在杠杆率突然增加和一段时期的高违约率之后，预测者BBB1991年后，债券价格向上弯曲，低等级债券的比例开始呈现趋势（见示例中的预测图）时间序列回归I:线性模型．）

我们可以从当时的经济史中找到一些线索。2001年是美国经济衰退的时期(上图第二纵带)，部分原因是由于互联网投机泡沫的破裂和商业投资的减少。同年还发生了9 / 11恐怖袭击，给债券市场带来了严重冲击。不确定性，而不是可量化的风险，成为当年剩余时间投资决策的特征。另一方面，20世纪80年代见证了债券市场性质的长期变化。被称为“垃圾债券”的新发行的高收益债券被用来为许多企业结构调整项目融资。这部分债券市场在1989年崩溃。在经历了1990-1991年的经济衰退(上图第一条纵线)和油价冲击之后，高收益债券市场再次开始增长，并趋于成熟。

删除数据的决定最终取决于模型的目的。如果目的主要是解释性的，那么删除准确记录的数据是不合适的。然而，如果目的是预测，那么必须询问删除点是否会创建一个更“典型”的过去的预样例，以及更“典型”的未来的预样例。例如，2001年数据的历史背景可能导致这样的结论:它歪曲了历史模式，不应让它影响预测模型。同样，1980年代的历史可能会得出这样的结论，即债券市场发生了结构性变化，在新制度的预测中，应忽略1991年以前的数据。

作为参考，我们创建了两个修正的数据集:

2001年%删除:d1=（dt~='2001'）;% 1删除日期d1=dt（d1）；Xd1=X0（d1，：）；yd1=y0（d1）；删除1991年之前的日期:日差= (datesd1 >='1991'）;%删除很多datesdm = datesd1 (dm);:一棵树= Xd1 (dm);ydm = yd1 (dm);

总结

删除对模型估计的影响总结如下。表格数组提供了一种方便的格式，用于比较模型间的回归统计数据：

Md1 = fitlm (Xd1 yd1);Mdm = fitlm(一棵树,ydm);%模型均方误差：为了表(M0 =。MSE,...Md1。MSE,...Mdm。MSE,...“变化无常”, {“原件”，“Delete01”，“Post90”}，...“RowNames”, {“MSE”}）

为了=1×3表原始Delete01 Post90  _________ _________ _________ MSE 0.0058287 0.0032071 0.0023762

%系数估计:系数=表（M0.系数.估算，...Md1.1.系数估计，...Mdm.Coefficients.Estimate,...“变化无常”, {“原件”，“Delete01”，“Post90”}，...“RowNames”, (“常量”, predNames0])

系数=5×3表原始删除01 Post90 uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

%系数标准误差：stderr =表(M0.Coefficients.SE,...Md1.SE，...Mdm.SE，...“变化无常”, {“原件”，“Delete01”，“Post90”}，...“RowNames”, (“常量”, predNames0])

斯特德=5×3表原Delete01 Post90 _________ _________ _________ Const 0.098565 0.077746 0.086073 AGE 0.0091845 0.0068129 0.013024 BBB 0.0026757 0.0020942 0.0030328 CPF 0.0038077 0.0031273 0.0041749 SPR 0.033996 0.025849 0.027367

MSE随着2001年删除该点而提高，然后又随着1991年之前数据的删除而提高。2001年删除该点也会收紧系数估计的标准误差。然而，删除1991年之前的所有数据会严重减少样本量，以及一些估计的标准误差比使用原始数据时更大。

参考文献

［１］贝尔斯利，检察官，库和r。e。威尔士。回归诊断．纽约:John Wiley & Sons, Inc.， 1980。

［２］韦斯伯格，S。应用线性回归新泽西州霍博肯：约翰·威利父子公司，2005年。

时间序列回归III：有影响的观察

介绍

有影响的观察

删除诊断

经济意义

总结

参考文献

计量经济学工具箱文件

金宝app

用MATLAB建模金融风险的实用指南