主要内容

时间序列回归VI:剩余诊断

此示例显示如何通过检查一系列残差来评估模型假设并调查Reperecification机会。在前面的示例中的演示文稿之后,它是时间序列回归的一系列示例中的第六个。

介绍

本系列前面示例中对信用违约数据的分析提出了一些不同的模型,使用了数据的各种转换和预测器的各种子集。残差分析是减少所考虑的模型数量、评估选项和建议返回到重新规范的路径的必要步骤。具有明显偏离经典线性模型(CLM)假设的残差的多元线性回归(MLR)模型(在示例中讨论)时间序列回归I:线性模型)不太可能表现良好,无论是在解释变化的关系,还是在预测新的反应。如剩余数系列所示,已开发了许多统计检验来评估CLM关于创新过程的假设。我们在这里进行了一些测试。

我们首先从前面的示例中加载相关数据时间序列回归V:预测器的选择

负载Data_TSReg5

剩余的情节

下面给出了前一个例子中识别出的每个模型在两个模型类别(无差异和差异数据)中的残差图:

地图=酷(3);%模型颜色图%未经定义的数据:res0 = M0.Residuals.Raw;res0SW = M0SW.Residuals.Raw;res0SWAC = M0SWAC.Residuals.Raw;model0Res = [res0、res0SW res0SWAC];图保存甘氨胆酸ax =;斧子。ColorOrder =地图;情节(日期、model0Res“。”“线宽”2,“MarkerSize”, 20)情节(日期、零(大小(日期)),“k -”“线宽”, 2)传奇({“M0”“M0SW”“M0SWAC”},“位置”“N”)包含(“年”) ylabel (“残留”)标题('{\bf模型残差(无差异数据)}')轴紧的网格

图中包含一个坐标轴。标题为{\bf模型残差(无差异数据)}的轴包含4个类型为line的对象。这些对象代表M0, M0SW, m0swc。

%差数据:resd1 = md1.residuals.raw;Res0sw = md1sw.residuals.raw;Res0swac = md1swa.residuals.raw;modeld1res = nan(长度(日期),3);modeld1res(2:结束,:) = [Resd1,Res0sw,Res0swac];图保存甘氨胆酸ax =;斧子。ColorOrder =地图;情节(日期、modelD1Res“。”“线宽”2,“MarkerSize”, 20)情节(日期、零(大小(日期)),“k -”“线宽”, 2)传奇({“MD1”“MD1SW”“MD1SWA”},“位置”“N”)包含(“年”) ylabel (“残留”)标题('{\bf模型残差(差异数据)}')轴紧的网格

图中包含一个坐标轴。标题为{\bf模型残差(差分数据)}的轴包含4个类型为line的对象。这些对象代表MD1、MD1SW、MD1SWA。

对于每个模型,残差散布在接近零的平均值附近,正如它们应该的那样,没有明显的趋势或模式表明错误规范。残差的尺度比原始数据的尺度小几个数量级(见示例)时间序列回归I:线性模型),这标志着这些模型已经捕获了数据生成过程(DGP)的很大一部分。似乎有一些证据表明,在几个持续的正或负偏离平均值的情况下存在自相关,特别是在无差异数据中。少量的异方差也很明显,尽管在如此小的样本中很难用肉眼评估将其与随机变化区分开来。

自相关

在存在自相关的情况下,OLS估计仍然是无偏的,但它们在无偏估计之间不再具有最小方差。这在小样本中是一个重要问题,因为小样本的置信区间相对较大。使问题复杂化的是,自相关在标准方差估计中引入了偏差,甚至是渐近的。因为经济数据中的自相关性很可能是正的,反映了相似的随机因素和从一个时期延续到下一个时期的被忽略的变量,方差估计倾向于向下偏向t-测试的准确性过于乐观。结果是区间估计和假设检验变得不可靠。更保守的显著性水平t测试建议。估计的稳健性取决于影响当前观测的自相关性的程度或持久性。

autocorr函数,不带输出参数,产生残差的自相关图,并给出残差自相关结构的快速视觉呈现:

图autocorr (res0)标题('{\bf M0残差自相关}'

图中包含一个坐标轴。标题为{\bf M0残差自相关}的轴包含4个类型为stem, line的对象。

在白噪声的巴特利特双标准误差带(由蓝线给出)之外,没有自相关的证据。

Durbin-Watson统计[3]是经济计量分析中最常报告的自相关测度。一个原因是它很容易计算。为M0模型:

diffRes0 = diff (res0);SSE0 = res0 ' * res0;DW0 = (diffRes0 * diffRes0) / SSE0% Durbin-Watson统计
DW0 = 2.1474

在平稳、正态分布创新的假设下,统计量近似 2 1 - ρ 1 ,在那里 ρ 1 是一阶(单滞后)自相关估计autocorr

rho0 = autocorr (res0,“NumLags”1);滞后采样自相关性,0,1DW0Normal = 2 * (1-rho0 (2))
DW0Normal = 2.1676

接近2的统计量没有一阶自相关的证据。适当的p的值计算dwt的方法linearmodel.类:

[pValueDW0, DW0] = dwt (M0)
pValueDW0 = 0.8943
DW0 = 2.1474

p-值为零的无一阶自相关远高于标准的5%临界值。

计量经济学家传统上依赖于经验法则,即德宾-沃森(Durbin-Watson)低于1.5左右的统计量是怀疑一阶自相关为正的理由。这个特别的临界值忽略了对样本量的依赖,但考虑到忽略自相关的严重后果,这意味着它是一个保守的准则。

德宾-沃森测试虽然传统上很受欢迎,但也有一些缺点。除了它的平稳、正态分布创新的假设,以及它只能检测一阶自相关的能力,它对其他模型的错误非常敏感。也就是说,它对许多没有设计测试的备选方案来说是强大的。在存在滞后响应变量时,它也是无效的(见示例)时间序列回归VIII:滞后变量和估计偏差).

的Ljung-Box以及[5],由函数实现lbqtest,测试“整体”或“组合”缺乏自相关性。它考虑滞后到一个特定的顺序l,这是一阶德宾-沃森测试的自然扩展。以下测试M0自相关的残差l= 5, 10,和15:

[hLBQ0, pValueLBQ0] = lbqtest (res0,“滞后”, 5、10、15)
hLBQ0 =1x3逻辑阵列0 0 0
pvaluelbq0 =1×30.8175 0.1814 0.2890

在默认的5%显著性水平下,测试无法拒绝每个扩展滞后结构中无自相关的零值。结果是相似的MD1模型,但更高p-values表示更少的拒绝null的证据:

[hLBQD1, pValueLBQD1] = lbqtest (resD1,“滞后”, 5、10、15)
hLBQD1 =1x3逻辑阵列0 0 0
pValueLBQD1 =1×30.9349 0.7287 0.9466

-test也有它的缺点。如果l值太小,则该测试将无法检测到高阶自相关性。如果它太大,测试就会失去动力,因为在任何一个滞后的显著相关可能会被在其他滞后的不显著相关冲掉。此外,该测试对序列依赖关系(而不是自相关性)也很强大。

另一个缺点是-test表示测试使用的默认卡方分布是渐进的,在小样本中可能产生不可靠的结果。ARMA (p)模型,如果将自由度的数目减少为估计系数的数目,则可得到更精确的分布,p+.然而,这限制了测试的值l大于p+,因为自由度必须是正的。对于一般的回归模型也可以做类似的调整,但是lbqtest默认情况下不会这样做。

另一个“整体”缺乏自相关性的测试是运行测试,由函数实现runstest,它决定了残差的符号是否有系统地偏离零。该测试寻找长时间运行的相同符号(正自相关)或交替符号(负自相关):

[hRT0, pValueRT0] = runstest (res0)
hRT0 = 0
pValueRT0 = 0.2878

的残差中的随机性为零M0模型。

自相关残差可能是一个显著的规范错误的标志,如果忽略该错误,自相关变量就会成为创新过程的隐含成分。在没有任何关于这些变量可能是什么的理论建议的情况下,典型的补救措施是在预测器中加入响应变量的滞后值,滞后程度达到自相关的顺序。然而,在模型中引入这种动态依赖关系是对静态MLR规范的重大背离。动态模型提供了一组与CLM假设相关的新注意事项,并在示例中进行了考虑时间序列回归VIII:滞后变量和估计偏差

异方差性

当预测器和创新过程产生的方差在响应中的条件方差时,发生异源性。该现象通常与横截面数据相关,其中测量误差的系统变化可能发生在观察中。在时间序列数据中,异形体族度往往是模型预测器和省略变量之间的相互作用的结果,因此基本误操作的另一个符号也是如此。在异源性存在下的OLS估计表现出与自相关相关的那些存在几乎相同的问题;它们是无偏见的,但在非偏见估计器之间不再具有最小差异,并且估计方差的标准公式变为偏见。然而,Monte Carlo的研究表明,对间隔估计的影响通常是相当小的[1].除非异方差很明显,否则标准误差的失真很小,显著性检验基本上不受影响。在大多数经济数据中,异方差的影响将比自相关的影响小。

恩格尔的拱测试[4],由archtest功能,是用于识别残留的异素形的测试的示例。它评估了一系列残差的空假设 r t 不存在条件异方差(ARCH效应),与ARCH(l)模型

r t 2 一个 0 + 一个 1 r t - 1 2 + + 一个 l r t - l 2 + ζ t

描述具有至少一个非零项的级数 一个 k k 0 l .在这里 ζ t 是一个自主创新的过程。ARCH过程中的残差是相关的,而不是相关的,所以检验是异方差而不是自相关的。

把这个测试应用到M0滞后剩余级数l= 5, 10和15等于:

[hARCH0, pARCH0] = archtest (res0,“滞后”, 5、10、15)
hARCH0 =1x3逻辑阵列0 0 0
pARCH0 =1×30.4200 0.3575 0.9797

检验未发现残差存在异方差的证据。为MD1模型的证据更弱:

[hARCHD1, pARCHD1] = archtest (resD1,“滞后”, 5、10、15)
hARCHD1 =1x3逻辑阵列0 0 0
pARCHD1 =1×30.5535 0.4405 0.9921

分布

高斯-马尔可夫定理不要求创新过程是正态分布的假设,但用标准技术构造置信区间是必要的,对于tF提供准确评估预测因子重要性的测试。这个假设在小样本中尤其重要,因为在小样本中,中心极限定理不能提供独立于创新分布的近似正态分布的估计。

正态性假设的通常理由是,创新是固有随机性加上回归中忽略的所有变量的总和。中心极限定理说,当被忽略变量的数目增加时,这个和将接近正态性。然而,这一结论取决于所省略的变量是相互独立的,而这在实践中往往是不合理的。因此,对于小样本,无论自相关和异方差的结果如何,检验正态假设都是精确规范的重要组成部分。

残差序列的正态概率图给出了一个快速评估:

图hNPlot0 = normplot(model0Res);传奇({“M0”“M0SW”“M0SWAC”},“位置”“最佳”)标题('{\bf模型残差(无差异数据)}')SET(HNPLOT0,“标记”“。”) set(hNPlot0([1 4 7]),'颜色'set(hNPlot0([2 5 8]),'颜色'set(hNPlot0([3 6 9]),'颜色',map(3,:))设置(hnplot0,“线宽”2)组(hNPlot0“MarkerSize”, 20)

图中包含一个坐标轴。标题为{\bf模型残差(无差异数据)}的轴包含9个类型为line的对象。这些对象代表M0, M0SW, m0swc。

图HNPlotd1 = normplot(modeld1res);传奇({“MD1”“MD1SW”“MD1SWA”},“位置”“最佳”)标题('{\bf模型残差(差异数据)}')设置(hNPlotD1“标记”“。”) set(hNPlotD1([1 4 7]),'颜色',map(1,:)) set(hNPlotD1([2 5 8]),'颜色'set(hNPlotD1([3 6 9]),'颜色'地图(3)):集(hNPlotD1,“线宽”2)组(hNPlotD1“MarkerSize”, 20)

图中包含一个坐标轴。标题为{\bf模型残差(差分数据)}的轴包含9个类型为line的对象。这些对象代表MD1、MD1SW、MD1SWA。

图中显示了经验概率与残值的关系。实线连接数据中的第25和75个百分点,然后用虚线扩展。垂直刻度是非线性的,刻度之间的距离等于正常分位数之间的距离。如果数据落在这条线附近,则正态假设是合理的。在这里,我们看到具有大残差的数据明显偏离正态(再次,特别是在无差异数据中),表明分布可能是倾斜的。显然,移除最具影响力的观察,在例子中考虑时间序列回归III:有影响的观察,将提高残差的正常性。

用适当的测试来确认任何视觉分析是一个好主意。有许多分布假设的统计检验,但Lilliefors检验,由lillietest功能,是专为小样本设计的正态性测试:

[hNorm0, pNorm0] = lillietest (res0)
hnorm0 = 1
pNorm0 = 0.0484

在默认的5%显著性水平上,测试拒绝M0系列,但只是勉强。测试没有发现拒绝正常的理由MD1数据:

s =警告(“关闭”“统计数据:lillietest: OutOfRangePHigh”);%关闭小统计警告[hNormD1, pNormD1] = lillietest (resD1)
hNormD1 = 0
pNormD1 = 0.5000
警告(s)%恢复警告状态

统计量在临界值表的边缘lillietest,也是最大的p价值报告。

对非正态性的常见补救方法是对响应变量应用Box-Cox变换[2].不像预测器的对数和幂变换,它们主要用于产生线性和便于趋势消除,Box-Cox变换被设计来产生残差的正态性。它们通常有校正残差的有利副作用。

总的来说,Box-Cox变换形成了一个参数化的系列日志以及作为特殊情况的标准化幂变换。带参数的变换 λ. 替换响应变量 y t 变量:

y t λ. y t λ. - 1 λ.

λ. 0 .为 λ. 0 ,变换由其极限值log( y t ).

boxcox函数查找参数 λ. 0 它使残差的正态对数似然最大化。将函数应用到IGD数据y0,有必要扰乱零默认速率,使它们正常:

α= 0.01;Y0 (Y0 == 0) =% y0BC = boxcox(y0);%在财务工具箱y0BC = [-3.5159 -1.6942 -3.5159 -1.7306 -1.7565 -1.4580 -3.5159 -2.4760 -2.5537 -3.5159 -2.1858 -1.7071 -1.7277 -1.5625 -1.4405 -0.7422 -2.0047 -3.5159 -2.8346];

转换对价值敏感α,这增加了分析的复杂性。然而,Lilliefors测试证实了转换具有预期的效果:

M0BC = fitlm (X0, y0BC);res0BC = M0BC.Residuals.Raw;[hNorm0BC, pNorm0BC] = lillietest (res0BC)
hNorm0BC = 0
pNorm0BC = 0.4523
警告(s)%恢复警告状态

由于原始残留系列中非全新性的证据是轻微的,因此我们不追求箱体转型的微调。

概括

残差分析的基本目的是检查CLM假设,寻找模型误用的证据。残差中的模式为重新规范提供了机会,以获得更准确的OLS系数估计、增强的解释力和更好的预测性能的模型。

不同的模型可以表现出相似的残差特征。如果是这样,可能需要保留替代模型,并在预测阶段进一步评估。从预测的角度来看,如果一个模型成功地表示了数据中的所有系统信息,那么残差应该是白噪声。也就是说,如果创新点是白噪声,并且模型模拟了DGP,那么提前一步的预测误差应该是白噪声。模型残差是这些样本外预测误差的样本内测量值。在示例中讨论了预测性能时间序列回归VII:预测

与非白创新相关的OLS估计问题,加上抢救许多经济模型的有限选择,导致考虑更强大异方差与自相关一致(HAC)方差估计量,如Hansen-White和Newey-West估计量,它们消除了渐近(尽管不是小样本)偏差。修订的估计技术,例如广义最小二乘法(GLS)也已经开发用于估计这些情况下的系数。GLS设计用于使具有大残留物的影响的重量。GLS估计器是蓝色的(见示例时间序列回归I:线性模型),并等效于最大似然估计(MLE)时,创新是正常的。本例中考虑了这些技术时间序列回归X:广义最小二乘和HAC估计

参考

[1]Bohrnstedt,G. W.和T. M. Carter。“回归分析中的鲁棒性。”在社会学研究方法, H. L.科斯特纳,编辑,118-146页。旧金山:乔西-拜斯,1971年。

[2]博克斯,g.e.p和d。r。考克斯。“转型分析”。皇家统计学会杂志.B系列,第26卷,1964年,211-252页。

[3]德宾,j和G.S.沃森。最小二乘回归中序列相关的检验生物统计学.1950年第37卷409-428页。

[4]罗伯特·恩格尔,。用英国通货膨胀方差估计的自回归条件异方差费雪50(1982年7月):987-1007。https://doi.org/10.2307/1912773

[5]Ljung, g和G. E. P. Box。《关于时间序列模型缺乏拟合的衡量》生物统计学.1978年第66卷,第67-72页。