时间序列回归IV:伪回归
本例考虑了趋势变量、伪回归和多元线性回归模型中的调节方法。这是关于时间序列回归的一系列示例中的第四个,在前面的示例中进行了演示。
简介
在多元线性回归(MLR)模型中,随着时间推移趋势的预测因子有时会被怀疑。然而,单独地,它们不需要影响普通最小二乘(OLS)估计。特别地,不需要对每个预测器进行线性化和趋势化。如果响应值被预测因子的线性组合很好地描述,MLR模型仍然适用,经典线性模型(CLM)假设不违反。
然而,如果趋势预测器与趋势响应配对,则有可能伪回归,在那里 -适合度的统计数据和整体测量变得具有误导性的“重要”。也就是说,模型中关系的统计显著性不能准确反映数据生成过程(DGP)中关系的因果显著性。
为了进行研究,我们从加载前一个示例中的相关数据开始时间序列回归III:有影响的观察,并继续分析文中提出的信用违约模型:
负载Data_TSReg3
混淆
在预测器和响应中出现相互趋势的一种方式是当两个变量都与因果先验相关时混杂变量模型之外。省略的变量(OV)成为创新过程的一部分,模型受到隐式限制,表达了一种错误的关系,如果OV包含在规范中,这种关系就不存在了。OV与模型预测因子之间的相关性违反了CLM严格外生性的假设。
当一个模型不能解释一个混杂变量时,结果是忽略变量偏差,其中,特定预测因子的系数过度解释了响应的变化,使估计值偏离了DGP中的估计值。估计也是不一致的,因为偏差的来源不会随着样本量的增加而消失。违反严格外生性有助于模型预测器跟踪创新中的相关变化,从而在系数上产生过于乐观的小置信区间和虚假的拟合优度。
为了避免规格不足,很容易用控制变量代表了众多经济因素,但与反应之间的联系却很微弱。通过这种方法,OV偏差的可能性似乎降低了。然而,如果模型中包含不相关的预测因子,则系数估计的方差会增加,关于预测因子显著性的错误推断的机会也会增加。即使有关包括预测因子,如果它们不能解释所有的OVs,那么系数估计的偏差和低效率可能会增加或减少,这取决于包括变量和排除变量之间的相关性[1].最后一点通常在OV偏差的教科书处理中被忽略,教科书通常将未指定的模型与实际上无法实现的完全指定的模型进行比较。
没有实验设计来获取数据,也没有能力使用随机抽样来最小化错误规范的影响,计量经济学家在选择模型预测因子时必须非常谨慎。不足规范的确定性和控制变量逻辑的不确定性使得相关理论在模型规范中的作用尤为重要。本系列中的示例时间序列回归V:预测因子选择而且时间序列回归VI:剩余诊断用诊断和重新规范的周期来描述过程。目标是收敛到一组可接受的系数估计值,并结合一系列残差,从中提取出所有相关的规范信息。
在实例中介绍了信用违约模型的情况时间序列回归I:线性模型,混杂变量当然是可能的。候选预测指标在某种程度上是特别的,而不是对信用违约原因的任何基本核算的结果。此外,预测因子是代理,依赖于模型之外的其他系列。如果不进一步分析潜在的相关经济因素,必须在模型残差分析中找到混杂的证据。
消除趋势
去趋势是计量经济学中常见的预处理步骤,有不同的可能目标。通常,经济序列是去趋势的,以试图分离一个稳定的成分,适应ARMA分析或光谱技术。同样经常的是,序列是去趋势的,这样它们就可以在一个共同的尺度上进行比较,就像人均归一化以消除人口增长的影响一样。在回归设置中,可以使用去趋势来最小化伪相关性。
信用违约数据图(参见示例)时间序列回归I:线性模型)表明预测器BBB
以及回应IGD
都是趋势。也许可以希望通过从数据中删除一些非典型的观察结果来消除这些趋势。例如,反应的趋势似乎主要是由于2001年的一个有影响力的观察:
图保存在情节(日期,y0,“k”,“线宽”2);情节(日期、y0-detrend (y0),“m - - - - - -”)情节(datesd1 yd1-detrend (yd1),“g * - - - - - -”)举行从传奇(respName0“趋势”,“删除2001年的趋势”,“位置”,“西北”)包含(“年”) ylabel (“响应级别”)标题(“{}\高炉反应”)轴紧网格在
删除该点可以减少趋势,但不能消除趋势。
或者,变量转换用于删除趋势。这可能会改善回归模型的统计特性,但会使分析和解释复杂化。任何转换都会改变变量的经济意义,有利于模型的预测能力,而不是解释的简单性。
趋势消除的方式取决于趋势的类型。一种趋势是由trend-stationary(TS)过程,它是确定性趋势和平稳过程的和。TS变量一旦确定,通常用幂变换或对数变换线性化,然后通过时间回归去趋势化。的去趋势
函数从数据中删除最小二乘线。这种转换通常有一个副作用,就是将有影响的观测结果规范化。
随机趋势
然而,并非所有的趋势都是TS。不同固定(DS)进程,又称集成或单位根过程,可能会显示随机趋势,无需TS分解。当DS预测器与DS响应配对时,出现了伪回归问题[2].即使这些级数是彼此独立生成的,没有任何混淆,这也是正确的。并不是所有的DS系列都是流行趋势,这使得问题变得复杂。
考虑以下具有不同漂移程度的DS随机游走之间的回归。决定系数( )在重复实现中计算,并显示分布。为了进行比较,还显示了随机向量之间的回归分布(没有自回归依赖):
T = 100;numSims = 1000;漂移= [0 0.1 0.2 0.3];numModels =长度(漂移);步骤= randn(T,2,numSims);%两次随机游走之间的回归:resw = 0 (numSims,T,numModels);RSqRW = 0 (numSims,numModels);为d = 1:numModels为s = 1:numSims Y = 0 (T,2);为t = 2: t Y (t):) =飘(d) + Y (t - 1:) +步骤(t, s);结束%紧凑回归公式:%% MRW = fitlm(Y(:,1),Y(:,2));% resw (s,:,d) = mrw . residual . raw ';% RSqRW(s,d) = mrw . rsquared .普通;%%替换为下面的for重复模拟效率%:X = [ones(size(Y(:,1))),Y(:,1)];y = y (:,2);Coeff = X\y;yHat = X*Coeff;res = y-yHat;yBar = mean(y);reres = yHat-yBar;SSR = reres '* reres;SSE = res'*res;SST = ssr + sse; RSq = 1-SSE/SST; ResRW(s,:,d) = res'; RSqRW(s,d) = RSq;结束结束绘制r平方分布:figure [v(1,:),edges] = histcounts(RSqRW(:,1));为我= 2:尺寸(RSqRW, 2) v(我:)= histcounts (RSqRW(:,我),边);结束numBins = size(v,2);Ax =轴;Ticklocs = edges(1:end-1)+diff(edges)/2;names = cell(1,numBins);为i = 1:numBins名称{i} = sprintf(% 0.5 g - % 0.5克的边缘,边缘(我),(i + 1));结束酒吧(ax, ticklocs, v。');集(ax,“XTick”ticklocs,“XTickLabel”、名称、“XTickLabelRotation”, 30);FIG = gcf;CMap = fig.Colormap;颜色= CMap(linspace(1,64,numModels),:);传奇(strcat ({'漂移= '}, num2str(飘”,' % -2.1 f ')),“位置”,“北”)包含(“{\ R} ^ 2》) ylabel (“模拟次数”)标题(“{\bf两个独立随机游走之间的回归”)
清晰的RsqRW%两个随机向量之间的回归:RSqR = 0 (numSims,1);为s = 1:numSims%紧凑回归公式:%% MR = fitlm(Steps(:,1,s),Steps(:,2,s));% RSqR(s) = mr . rsquared .普通;%%替换为下面的for重复模拟效率%:X = [ones(size(Steps(:,1,s))),Steps(:,1,s)];y = Steps(:,2,s);Coeff = X\y;yHat = X*Coeff;res = y-yHat;yBar = mean(y);reres = yHat-yBar;SSR = reres '* reres;SSE = res'*res;SST = ssr + sse; RSq = 1-SSE/SST; RSqR(s) = RSq;结束绘制r平方分布:图直方图(RSqR) ax = gca;ax.Children.FaceColor =[。8 .8 1];包含(“{\ R} ^ 2》) ylabel (“模拟次数”)标题(“{\bf两个独立随机向量之间的回归”)
清晰的RSqR
的 随着漂移系数的增加,随机游走回归变得更加显著。即使是零漂移,随机游走回归也比随机向量之间的回归更显著,其中 数值几乎都低于0.1。
假回归通常伴随着残差的自相关迹象,这可以作为诊断线索。下图显示了上述每个随机游走回归中残差序列的自相关函数(ACF)的分布:
numlag = 20;ACFResRW = 0 (numSims, numlag +1,numModels);为s = 1:numSims为d = 1:numModels ACFResRW(s,:,d) = autocorr(ResRW(s,:,d));结束结束清晰的ResRW图ACF分布:图箱线图(ACFResRW (:,: 1),“PlotStyle”,“紧凑”,“BoxStyle”,“大纲”,“LabelOrientation”,“水平”,“颜色”,颜色(1,:))ax = gca;斧子。XTickLabel = {''};持有在箱线图(ACFResRW (:,:, 2),“PlotStyle”,“紧凑”,“BoxStyle”,“大纲”,“LabelOrientation”,“水平”,“宽度”, 0.4,“颜色”颜色(2:))ax。XTickLabel = {''};箱线图(ACFResRW (:: 3),“PlotStyle”,“紧凑”,“BoxStyle”,“大纲”,“LabelOrientation”,“水平”,“宽度”, 0.3,“颜色”颜色(:))ax。XTickLabel = {''};箱线图(ACFResRW (:: 4),“PlotStyle”,“紧凑”,“BoxStyle”,“大纲”,“LabelOrientation”,“水平”,“宽度”, 0.2,“颜色”、颜色(4:)“标签”0:20)线([0,21],(0,0),“颜色”,“k”)线([0,21],[2 /√(T) 2 /√(T)),“颜色”,“b”)线([0,21],[2 /√(T) 2 /√(T)),“颜色”,“b”)举行从包含(“滞后”) ylabel (样本自相关的)标题(“{\bf剩余ACF分布}”网格)在
清晰的ACFResRW
颜色对应上面条形图中的漂移值。该图显示了扩展的,显著的残差自相关的大多数模拟。在示例中,将进一步讨论与残差自相关相关的诊断时间序列回归VI:剩余诊断.
差分
上述模拟得出的结论是,无论趋势是否存在,所有应该对回归变量进行集成测试。然后,通常建议DS变量通过差分去趋势,而不是按时回归,以实现平稳均值。
TS和DS系列之间的区别已被广泛研究(例如,在[3]),特别是…的影响underdifferencing(将DS系列视为TS系列)和overdifferencing(TS系列视为DS)。如果将一种趋势类型视为另一种趋势类型,通过不适当的预处理来实现平稳,那么回归结果就变得不可靠,所得到的模型通常预测能力较差,无论样本内拟合如何。
计量经济学工具箱™有几个测试集成的存在或不存在:adftest
,ppt
,kpsstest
,lmctest
.例如,增强迪基-富勒检验,adftest
,针对零积分寻找统计证据。使用默认设置,对两者进行测试IGD
而且BBB
未能拒绝null以支持趋势平稳的替代方案:
IGD = y0;BBB = x0 (:,2);[h1IGD,pValue1IGD] = adftest(IGD,“模型”,“t”)
h1IGD =逻辑0
pValue1IGD = 0.1401
[h1BBB,pValue1BBB] = adftest(BBB,“模型”,“t”)
h1BBB =逻辑0
pValue1BBB = 0.6976
其他测试,比如KPSS测试,kpsstest
,寻找统计证据来对抗无趋势平稳性。结果喜忧参半:
S =警告(“关闭”);关闭大/小统计警告[h0IGD,pValue0IGD] = kpsstest(IGD,“趋势”,真正的)
h0IGD =逻辑0
pValue0IGD = 0.1000
[h0BBB,pValue0BBB] = kpsstest(BBB,“趋势”,真正的)
h0BBB =逻辑1
pValue0BBB = 0.0100
的p-值为0.1和0.01,分别是右尾所使用的临界值表中的最大值和最小值kpsstest
.它们分别在测试统计值非常小或非常大时被报告。因此,反对趋势平稳性的证据在第一个检验中尤其薄弱,而在第二个检验中尤其有力。的IGD
结果是模棱两可的,即使在Dickey-Fuller检验未能拒绝整合之后,也未能拒绝趋势平稳性。的结果BBB
更一致,说明预测因子是整合的。
预处理所需要的是对回归中的所有变量及其差异系统地应用这些测试。效用函数i10test
自动化所需的一系列测试。以下程序对所有模型变量及其第一差值执行成对ADF/KPSS测试:
I.names = {“模型”};I.vals = {“t”};S.names = {“趋势”};S.vals = {true};i10test(数据表,“numDiffs”, 1...“它”,“adf”,“iparams”,我,...“圣”,“kps”,“sparams”,年代);
测试结果我(0 (1) ) ====================== 年龄1 0 0.0069 - 0.1000 D1AGE 1 0 0.0010 0.1000 ---------------------- BBB 0 1 1 0 0.0249 0.1000 0.6976 - 0.0100 D1BBB ---------------------- 论坛0 0 0.2474 - 0.1000 D1CPF 1 0 0.0064 - 0.1000 ---------------------- SPR 0 1 1 0 0.0032 0.1000 0.2563 - 0.0238 D1SPR ---------------------- IGD 0 0 0.1401 - 0.1000 D1IGD 1 0 0.0028 - 0.1000 ----------------------
警告(s)%恢复警告状态
列显示测试结果和p-values对积分的空值,
,和平稳性,
.在给定的参数设置下,测试表明年龄
是静止的(有序的积分0),BBB
而且SPR
都是整合的,但由于单一的差异(有序的积分1).结果是模糊的论坛
而且IGD
,但两者在一次差异后似乎都是静止的。
用于与示例中的原始回归进行比较时间序列回归I:线性模型,我们替换BBB
,SPR
,论坛
,IGD
他们最初的不同之处,D1BBB
,D1SPR
,D1CPF
,D1IGD
.我们离开年龄
undifferenced:
D1X0 = diff(X0);D1X0(:,1) = X0(2:end,1);%使用无差异的年龄D1y0 = diff(y0);predNamesD1 = {“年龄”,“D1BBB”,“D1CPF”,“D1SPR”};respNameD1 = {“D1IGD”};
无差异数据原始回归:
M0
M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21,误差自由度:16均方根误差:0.0763 r平方:0.621,调整后r平方:0.526 f统计量vs常数模型:6.56,p值= 0.00253
差异数据回归:
MD1 = fitlm(D1X0,D1y0,“VarNames”(predNamesD1 respNameD1])
MD1 =线性回归模型:D1IGD ~ 1 + AGE + D1BBB + D1CPF + D1SPR估计系数:估计SE tStat pValue _________ _________ ________ _________(截距)-0.089492 0.10843 -0.82535 0.4221 AGE 0.015193 0.012574 1.2083 0.24564 D1BBB -0.023538 0.020066 -1.173 0.25909 D1CPF -0.015707 0.0046294 -3.393 0.0040152 D1SPR -0.03663 0.04017 -0.91187 0.37626观测数:20,误差自由度:15均方根误差:0.106 r -平方:0.49,调整后r -平方:0.354 f统计量vs常数模型:3.61,p值= 0.0298
不同的数据增加了所有系数估计的标准误差,以及总体RMSE。这可能是纠正虚假回归的代价。无差异预测因子的符号和系数估计的大小,年龄
,变化不大。即使在差异之后,论坛
在预测因子中具有显著意义。接受修改后的模型取决于实际的考虑,如解释的简单性和预测性能,在示例中进行了评估时间序列回归VII:预测.
总结
由于存在假回归的可能性,通常建议在必要时对时间序列回归中的变量进行去趋势处理,以便在估计之前实现平稳。然而,在使用保留其原始经济意义的变量和改进OLS估计统计特征的转换变量之间存在权衡。这种权衡可能很难评估,因为原始回归中的“虚假”程度无法直接测量。本例中讨论的方法可能会提高结果模型的预测能力,但可能会以解释的简单性为代价。
参考文献
[1]克拉克,k。《幽灵的威胁:计量经济学研究中遗漏的变量偏差》冲突管理与和平科学“,.Vol. 22, 2005, pp. 341-352。
[2]格兰杰,C. W. J.和P.纽博尔德。"计量经济学中的伪回归"计量经济学杂志.第2卷,1974,第111-120页。
[3]纳尔逊,C.和C.普罗瑟。宏观经济时间序列的趋势和随机游走:一些证据和启示货币经济学杂志.第10卷,1982,第130-162页。