主要内容

时间序列回归IX:滞后顺序选择

这个例子展示了如何为多个线性回归模型选择统计上显著的预测历史。这是关于时间序列回归的一系列例子中的第九个,在前面的例子中。

简介

动态回归模型中的预测因子可能包括外生解释变量的滞后值(分布式滞后,或DL术语),内生响应变量的滞后值(自回归,或AR术语),或两者兼有。创新过程的滞后值(移动平均,或MA,项)可能具有经济意义,代表冲击的持久性,但它们通常被包括在内以抵消额外DL或AR项的需求。(参见示例时间序列回归VIII:滞后变量和估计偏差.)

理想情况下,经济理论会建议将哪些滞后因素纳入模型。然而,通常必须通过数据分析来发现预测器变化和相应响应变化之间的延迟。一种常见的建模方法是不时地包括预测器的历史t- 1,t- 2,t- 3、…T - p,假设只有预测因子最近的变化才会对当前反应产生显著影响。规范分析然后考虑扩展或限制滞后结构,最后选择一个合适的滞后结构滞后阶p

这个例子研究了延迟顺序选择的策略。尽管细节取决于数据和建模上下文,但一个共同的目标是确定数据生成过程(DGP)的简洁、易于解释的描述,从而导致准确的估计和可靠的预测。

我们首先从本系列前面的例子中加载相关数据:

负载Data_TSReg8

基本的测试

经典的,正常的线性模型(CNLM),在示例中介绍时间序列回归I:线性模型,对数据进行过滤,生成白噪声残差。计量经济模型并不总是渴望对DGP进行如此彻底的统计描述,特别是当预测因素由理论或政策决定时,建模目标集中在具体的影响上。然而,偏离CNLM及其程度是模型错误规范的常见衡量标准。

在模型规范过程中的任何一点上,残差可能显示出非正态性、自相关性、异方差性和其他违反CNLM假设的情况。随着预测因子的添加或移除,模型可以通过残差质量的相对改善来评估。通过残差分析进行模型拟合的测试在示例中进行了描述时间序列回归VI:剩余诊断

模型规范还必须考虑预测因子的统计显著性,以避免在残差增白服务中过度拟合,并产生DGP的简约表示。基本测试包括t-test,用于评估单个预测因子的显著性,以及F-test,用于评估例如整个滞后结构的联合显著性。这些测试通常一起使用,因为具有不显著的个体效应的预测因子仍然可能有助于显著的联合效应。

许多滞后顺序选择过程使用这些基本测试来评估初始滞后规范的扩展和限制。好的计量经济学实践建议仔细评估过程中的每一步。计量经济学家必须在经济理论和模型假设的背景下判断统计决策。自动化程序在上的例子中讨论时间序列回归V:预测因子选择,但通常很难完全自动地识别有用的滞后结构。在本例中,我们采用一种更加“手动”的方法。当然,任何此类过程的可靠性都严重依赖于底层测试的可靠性。

考虑本例中介绍的信用违约的基本模型时间序列回归I:线性模型

M0
M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21,误差自由度:16均方根误差:0.0763 r平方:0.621,调整后r平方:0.526 f统计量vs常数模型:6.56,p值= 0.00253

基于p的-值t统计数据,年龄对违约率最重要的个人风险因素(正系数)是由回应测量的吗IGD年龄代表三年前首次获得评级的投资级债券发行人的百分比。违约通常发生在这段时间之后,当最初发行的资金被消耗掉时,但违约可能迟早会发生。考虑包含滞后或领先的模型似乎是合理的年龄

适合M0仅基于21次观测,并且已经估计的5个系数只剩下16个自由度供进一步拟合。延长的滞后结构和相应的样本量减少,将使诊断统计数据的有效性受到质疑。

作为参考,我们创建表和拟合模型年龄延迟顺序为1、2、3、4和5:

滞后数据:AGE = DataTable.AGE;maxLag = 5;滞后= 1:maxLag;AGELags = lagmatrix(AGE,lag);lagNames = strcat({“AGELag”}, num2str(滞后”,“% - d”));AGELags = array2table“VariableNames”, lagNames);预分配表和模型:DTAL = cell(maxLag,1);MAL = cell(maxLag,1);适合型号:AL =年龄;DT =数据表;lagRange = 1:lagOrder;%修剪下一个预样本行:Al (1,:) = [];Dt (1,:) = [];适合模型:DTAL{lagOrder} = [AL(:,lagRange),DT];MAL{lagOrder} = fitlm(DTAL{lagOrder});MALName{lagOrder} = strcat(“发作”num2str(拉格朗日,' % u '));结束

我们首先考虑用的模型年龄滞后阶为2,即与年龄关于发行者的数据是3年前首次评级的,后来滞后了年龄4、5年前首次评级的发行人数据如下:

Mal12 = mal {2}
MAL12 =线性回归模型:IGD ~ 1 + AGELag1 + AGELag2 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ ________(截距)-0.31335 0.12871 -2.4345 0.031471 AGELag1 0.0030903 0.012504 0.24714 0.80898 AGELag2 0.014322 0.0090639 1.5802 0.14006 AGE 0.017683 0.010243 1.7263 0.10993 BBB 0.003078 0.0035264 0.87284 0.39988 CPF -0.013744 0.0047906 -2.869 0.014115 SPR 0.030392 0.034582 0.87883 0.39675观测数:19、误差自由度:12均方根误差:0.0723 r平方:0.732,调整r平方:0.598 f统计量vs常数模型:5.46,p值= 0.00618

滞后变量使样本量减少了两个。加上两个新的估计系数,自由度减少了4到12。

模型拟合,由均方根误差和调整后的 R 2 统计数据(它解释了额外的预测因素),相对于略有改善M0.预测因素的重要性M0,以p他们的价值观t-statistics,被减少。这是添加预测器时的典型情况,除非新的预测器完全不重要。整体F-statistic表明,扩展模型在描述响应变化方面的显著性略有降低。

在这两个新的预测因子中,AGELag2似乎比AGELag1.这很难用经济学术语来解释,而且它对显著性测量的准确性提出了质疑。是p-值一个小样本大小的工件?它们是否受到违反CNLM假设的影响,即普通最小二乘(OLS)估计?简而言之,它们是否提供了修改延迟结构的合理理由?在实际规模的经济数据样本中获得这些问题的可靠答案往往是一个挑战。

任何诊断统计量的分布都依赖于工艺创新的分布,如模型残差所示。为t而且F测试,正常的创新足以产生测试统计数据t而且F有限样本的分布。然而,如果创新偏离了正态,统计数据可能就不会遵循这些预期的分布。检验存在规模扭曲,即名义显著性水平错误地反映了拒绝零假设的实际频率。当这种情况发生时,关于预测器显著性的推断变得不可靠。

这是规范分析中的一个基本问题,因为在流程的任何阶段,候选模型都可能被错误指定,并且数据被不完全过滤。测试结果必须在剩余系列的背景下考虑。的正态概率图MAL12残差显示了一些怀疑报告的理由p值:

resAL12 = mal12 . residals . raw;normplot (resAL12)包含(“残留”)标题(“{\bf MAL12残差}”

图中包含一个轴对象。标题为空白M A L 1 2空白R es i u L s的轴对象包含3个类型为line的对象。

一个普遍的看法是t而且F测试对非常规创新具有鲁棒性。在某种程度上,这是正确的。创新从椭圆对称分布,例如t广义多元正态分布,产生t而且F以下是统计数据t而且F有限样本的分布[12].然而,这个结果假设是一个对角协方差结构。当创新表现出异方差和自相关性时,标准t而且F测试变得不那么健壮[5][16].在有限的样本中,尺寸失真可能很大。然而,实际上,创新分配的性质和扭曲的程度很难衡量。

健壮的测试

t而且F统计包括系数估计和它们的标准误差。在异方差或自相关存在的情况下,只要预测因子是外生的,OLS系数估计仍然是无偏倚的。然而,当用通常的CNLM公式估计时,标准误差是有偏差的。

一种应对方法是使用对非球面创新稳健的标准误差估计来形成统计数据[2][3],如例所示时间序列回归X:广义最小二乘和HAC估计.我们在这里说明这个策略。

pa的-值t统计数据通常使用Student's来计算t分布。例如,对于AGELag2MAL12

AGELag2Idx = find(strcmp(MAL12。CoefficientNames,“AGELag2”));coeff_AGELag2 = MAL12.Coefficients.Estimate(AGELag2Idx);se_AGELag2 = mal12 . coefficient . se (AGELag2Idx);t_AGELag2 = coeff_AGELag2/se_AGELag2;dfeAL12 = MAL12.DFE;p_AGELag2 = 2*(1-tcdf(t_AGELag2,dfeAL12))
p_AGELag2 = 0.1401

这是p的前一次显示中报告的MAL12

使用异方差一致(HC),或更一般的异方差自相关一致(HAC),估计标准误差,同时继续假设学生的t对于统计结果的分布,导致截然不同p值:

% HC估计:[~,seHC] = hac(MAL12,“类型”HC的“重量”“正”“显示”“关闭”);se_AGELag2HC = seHC(AGELag2Idx);t_AGELag2HC = coeff_AGELag2/se_AGELag2HC;p_AGELag2HC = 2*(1-tcdf(t_AGELag2HC,dfeAL12))
p_AGELag2HC = 0.3610
% HAC估计:[~,seHAC] = hac(MAL12,“类型”“肝”“重量”英国电信的“显示”“关闭”);se_AGELag2HAC = seHAC(AGELag2Idx);t_AGELag2HAC = coeff_AGELag2/se_AGELag2HAC;p_AGELag2HAC = 2*(1-tcdf(t_AGELag2HAC,dfeAL12)))
p_AGELag2HAC = 0.0688

HCp值显示AGELag2相对不重要,而HACp-value表示它可能相当重要。的CNLMp-value介于两者之间。

从这些结果中得出可靠的推论存在许多问题。首先,没有对剩余序列进行更彻底的分析(如示例中所示)时间序列回归VI:剩余诊断)时,没有理由选择一种标准误差估计器而不是另一种。其次,标准误差估计只是渐近一致的,这里的样本很小,即使是按照计量经济学的标准。第三,估计器需要几个,有时是任意选择的,讨厌的参数“重量”“带宽”“美白”),这会显著改变结果,尤其是在小样本中。最后,新构成t而且F统计,形成了稳健的标准误差,做遵循t而且F有限样本的分布。

简而言之,这里的显著性估计可能并不比基于CNLM假设的传统估计更好。修改基于hac的测试,例如KVB测试[11],可以有效地解决具有个别有害参数的问题,但它们不能解决将渐近技术应用于有限样本的更大问题。

引导测试

对传统规格测试中尺寸失真的另一种反应是引导.从原始数据计算的测试统计量被保留,但是它的分布通过模拟重采样被重新评估,目的是产生更准确的测试统计量p价值。

从总体中重新采样数据是评估统计量分布的标准技术。然而,经济时间序列的性质通常使这种方法不切实际。经济有固定的历史。生成具有与经验数据相似的统计属性的现实替代路径,需要额外的假设。

在自举检验中,零模型拟合可用数据,残差的零分布用于近似创新的总体分布。残差然后重新采样,替换,以生成新的残差序列。使用固定的预测器历史计算相应的引导响应。最后,新的响应数据用于改装替代(原始)模型并重新计算检验统计量。重复这个过程,生成一个引导分布。

为了进行比较,我们引导t统计的AGELag2在零假设下,它的系数为零。空模型是:

Mal1 = mal {1}
MAL1 =线性回归模型:IGD ~ 1 + AGELag1 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ ________ _________(截距)-0.1708 0.11961 -1.428 0.17521 AGELag1 -0.011149 0.011266 -0.98959 0.33917 AGE 0.01323 0.010845 1.2198 0.24268 BBB 0.0062225 0.0033386 1.8638 0.083456 CPF -0.017738 0.0047775 -3.7129 0.0023176 SPR 0.05048 0.036097 1.3985 0.18373观测数:20,误差自由度:14均方根误差:0.0786 r平方:0.634,调整后r平方:0.503 f统计量vs常数模型:4.84,p值= 0.00885

AGELag1,在模型中极不重要MAL12这两者都包括在内AGELag1而且AGELag2,在缺乏的情况下变得更加重要AGELag2,但相对于预测因素,其作用仍然很小M0.它的系数变为负值,与我们对它作为违约风险预测指标的理解相反。推论可能是AGELag1是无关紧要的。尽管如此,我们仍然保持它来评价的具体限制MAL12MAL1,将滞后阶数减少1:

Dtal1 = dtal {1};延迟订购1表Dtal12 = dtal {2};%滞后顺序2表(少一个观测值)numBoot = 1e3;统计数%res0 = mal1 . residual . raw;引导“人口”%[~,IdxBoot] = bootstrp(numBoot,[],res0);%引导指数ResBoot = res0(IdxBoot);%引导剩余Igd0 = dtal1。IGD - res0;%无残留响应IGDB = 0 (size(DTAL12,1),numBoot);%引导响应DTBoot = DTAL12;tBoot = 0 (numBoot,1);引导统计数据boot = 1:numBoot IGDBoot = IGD0 + ResBoot(:,boot);IGDBoot(1) = [];%修整到DTBoot的大小IGDBoot(IGDBoot < 0) = 0;将负默认率设置为0DTBoot。IGD= IGDBoot; MBoot = fitlm(DTBoot); tBoot(boot) = MBoot.Coefficients.tStat(AGELag2Idx); IGDB(:,boot) = IGDBoot;结束

该过程生成numBoot引导响应,替换固定预测数据的原始响应:

图保存bootDates =日期(3:结束);hIGD = plot(bootDates,IGDB,“b”。);hIGDEnd = plot(bootDates,IGDB(:,end),“b -”);hIGD0 = plot(bootDates,DTAL12。IGD,“ro - - - - - -”“线宽”2);持有包含(“日期”) ylabel (“违约率”)标题(“{\bf引导响应}”)传说([hIGD(结束),hIGDEnd, hIGD0),“引导反应”...“典型的引导反应”...“经验反应”...“位置”“西北”

图中包含一个轴对象。标题为空白B o o ts t r a p空白r es p on s s的坐标轴对象包含1002个类型为行的对象。这些对象表示引导响应、典型引导响应、经验响应。

的引导p-value与原始值没有太大区别p值,p_AGELag2,使用Student's找到t地理分布:

p_AGELag2
p_AGELag2 = 0.1401
p_AGELag2Boot = sum(tBoot > t_AGELag2)/length(tBoot)
p_AGELag2Boot = 0.1380

但是,一个直方图显示了bootstrap的分布t统计数据发生了变化:

图保存numBins = 50;hist =直方图(tBoot,numBins,“归一化”“概率”...“FaceColor”,(。8 .8 1]);x = hhistory . binlimits (1):0.001: hhistory . binlimits (end);y = tpdf(x,dfeAL12);hPDF = plot(x,y* hist。BinWidth,“米”“线宽”2);hStat = plot(t_AGELag2,0,“罗”“MarkerFaceColor”“r”);line([t_AGELag2 t_AGELag2],1.2*[0 max(hhistory . values)],“颜色”“r”)轴传奇([hHist、hPDF hStat),“Bootstrap {\it t}分布”...学生的{\it t}分布...“原始统计数据”...“位置”“不”)包含(“{\它t}”)标题('{\bf Bootstrap {\it t}统计}')举行

图中包含一个轴对象。标题为空白B o o ts t ra p空白t空白st a ti st c s的轴对象包含4个直方图类型的对象,line。这些对象代表Bootstrap {\it t}分布,学生{\it t}分布,原始{\it t}统计。

t统计量在自举分布中不太显著,表明非球面创新对原始检验可能有影响。

自主测试也有其自身的困难。为了强制执行违约率的非负性,有必要用负值来修剪引导响应。推论的结果尚不清楚。此外,自举检验从根本上依赖于这样一个假设:残差的经验分布忠实地代表了DGP中创新分布的相关特征。在较小的样本中,这很难证明。

bootstrap有许多变体。例如,野生的引导[7]该方法结合了鲁棒估计和残差重采样,在异方差存在的情况下,似乎在较小的样本下表现良好。

基于可能性测试

版本的t而且F使用CNLM假设制定的测试,可以在创新分布偏离规范的各种情况下提供可靠的推论。相比之下,基于可能性的测试需要一个正式的创新模型才能运行。数据似然通常是在固定方差的独立正态分布创新假设下计算的。DGP的基本模型可以调整以适应不同的创新模式,包括极端事件的高概率,但强事件分布的假设仍然存在。

就像F统计,数据似然(或者,在实践中,对数似然)衡量的是整个模型的拟合,或滞后结构,而不是单个模型项的显著性。概率是基于分布假设下数据的联合概率,而不是基于残差平方和。似然越大说明拟合越好,但要评价模型的相对质量,似然的统计显著性差异必须进行评估。

的OLS估计的正态对数似然MAL12以及它的限制。我们从构建MAL2,只有AGELag2,以完成所考虑的一组限制:

DTAL2 = [AGELags(:,2),DataTable];MAL2 = fitlm(DTAL2)
MAL2 =线性回归模型:IGD ~ 1 + AGELag2 + AGE + BBB + CPF + SPR估计系数:估计SE tStat pValue _________ _________ _______ _________(截距)-0.29694 0.10622 -2.7955 0.01516 AGELag2 0.013694 0.0083803 1.6341 0.12621 AGE 0.017022 0.0095247 1.7872 0.097235 BBB 0.0035843 0.0027645 1.2965 0.21733 CPF -0.014476 0.0036275 -3.9907 0.0015388 SPR 0.033047 0.031661 1.0438 0.31562观测数:19,误差自由度:13均方根误差:0.0696 r平方:0.731,调整后r平方:0.627 f统计量vs常数模型:7.05,p值= 0.00216
% MAL12无限制对数似然:uLLOLS = MAL12。LogLikelihood
uLLOLS = 27.3282
M0、MAL1和MAL2的限制性对数似然:rLLOLS = [m . loglikelihood;MAL1.LogLikelihood;MAL2.LogLikelihood]
rLLOLS =3×127.0796 26.0606 27.2799

这些是基于残差序列的OLS对数似然。例如,数据的对数似然M0计算时使用:

resM0 = m . residual . raw;Msem0 = m0.mse;muM0 = mean(resM0);LLM0 = sum(log(normpdf(resM0,muM0,sqrt(MSEM0)))) . log)
Llm0 = 26.7243

由于OLS不一定使可能性最大化,除非CNLM假设得到满足,模型参数空间的限制可能为增加可能的数据。我们看到了限制条件M0而且MAL2.这再次表明,这是一个不寻常的创新过程。

为了进行比较,请考虑基于最大模型系数的似然估计(MLEs),使用华宇电脑函数。我们拟合了零阶AR和MA规格的ARMAX模型(即纯回归模型):

准备数据:LLOLS = [uLLOLS;rLLOLS];DataAL12 = table2array(DTAL12);y = DataAL12(:,7);X = DataAL12(:,1:6);PredCols = {1:6,3:6,[1,3:6],2:6};ModelNames = {“MAL12”“M0”“MAL1”“MAL2”};计算MLEs:LLMLE = 0 (4,1);Mdl = arima(0,0,0);选项= optimoptions(@fmincon,“显示”“关闭”“诊断”“关闭”...“算法”“sqp”“TolCon”1 e);模型= 1:4 [~,~,LL] =估计(Mdl,y,“X”X (: PredCols{模型}),...“显示”“关闭”“选项”、选择);LLMLE(模型)= LL;结束%显示结果:流(“\ nLoglikelihoods \ n”
Loglikelihoods
流(' \ n % 8 s % 9 s % 9 s '“模型|”“OLSLL”“MLELL”
型号| OLSLL mell
流([' \ n 'repmat (“=”1) 24日)
========================
模型= 1:4 fprintf [' \ n % 6 s '“|”' % -9.4 f % -9.4 f '],...ModelNames}{模型,LLOLS(模型),LLMLE(模型)结束
Mal12 | 27.3282 27.3282 m0 | 27.0796 25.5052 mal1 | 26.0606 25.5324 mal2 | 27.2799 27.2799

在mle的情况下,正如预期的那样,所有受限模型描述数据的可能性都降低了。OLS和MLE度量在最大似然模型上存在分歧,由OLS选择M0,以及MLE选择MAL12

可能性的差异显著吗?对于mle,这个问题传统上是通过某种版本的似然比检验来解决的lratiotest), Wald测试(由waldtest),或拉格朗日乘子测试(由航空航天).这些在示例中进行了讨论经典模型错误规范测试(CMM)测试。三坐标测量机试验的几何比较基本上是基于模型系数的最优性。它们不应用于OLS可能性,除非有证据表明CNLM假设得到满足。

就像F测试,CMM测试仅适用于比较嵌套模型,它们是彼此的限制或扩展。这是评估滞后结构时的典型情况。不像FCMM检验适用于涉及非线性模型、非线性限制和非正态(但完全指定)创新分布的比较。这在某些计量经济学设置中很重要,但在滞后顺序选择中很少。CMM检验的一个缺点是,它们仅渐进地赋予模型差异显著性,因此在有限样本中必须谨慎使用。

例如,最直接评估MLE似然差的似然比检验,可用于评估各种限制的充分性:

|MAL12| ~ |M0|、|MAL1|、|MAL2|限制:Dof = [2;1;1];限制数量%[hist,pValue] = lratiotest(LLMLE(1),LLMLE(2:4),dof)
hHist =3x1逻辑阵列0 0 0
pValue =3×10.1615 0.0581 0.7561
|MAL1|和|MAL2|对|M0|的限制:Dof = [1;1];限制数量%[hist,pValue] = lratiotest(LLMLE(3:4),LLMLE(2),dof)
hHist =2x1逻辑阵列0 0
pValue =2×10.8154 - 0.0596

在默认的5%显著性水平下,测试在所有情况下都不能拒绝空的、受限制的模型,而支持替代的、不受限制的模型。也就是说,包括任何滞后结构的统计理由是不充分的。最初的模型,M0,可能仅仅是出于模范节俭的原因。

CMM测试的替代方法是各种形式的信息标准(集成电路)。IC也考虑拟合优度,由可能性衡量,但惩罚缺乏简约,由模型系数的数量衡量。与纯可能性一样,调整后的IC可能性提供了模型充分性的相对度量,而不是绝对度量。但是,目前还没有常用的与CMM检验相对应的假设检验来评价IC差异的显著性。在实践中,主要的优势是IC可以用来比较非嵌套模型,尽管在比较滞后结构时这通常是不相关的。

下表比较了两种常见的IC, AIC和BIC,以及OLS等值,调整后 R 2

AR2 = [MAL12.Rsquared.Adjusted;M0.Rsquared.Adjusted;...MAL1.Rsquared.Adjusted;MAL2.Rsquared.Adjusted];AIC = [MAL12.ModelCriterion.AIC;M0.ModelCriterion.AIC;...MAL1.ModelCriterion.AIC;MAL2.ModelCriterion.AIC];BIC = [MAL12.ModelCriterion.BIC;M0.ModelCriterion.BIC;...MAL1.ModelCriterion.BIC;MAL2.ModelCriterion.BIC];流(“\ nSize-Adjusted适合\ n”
程度的配合
流(' \ n % 8 s % 7 s % 9 s % 9 s '“模型|”“AR2”“另类投资会议”“BIC”
型号| AR2 AIC BIC
流([' \ n 'repmat (“=”1 32))
================================
模型= 1:4 fprintf [' \ n % 6 s '“|”' % -7.4 f '' % -9.4 f '' % -9.4 f '],...ModelNames}{模型,AR2(模型),另类投资会议(模型)、BIC(模型)结束
Mal12 | 0.5979 -40.6563 -34.0452 m0 | 0.5264 -44.1593 -38.9367 mal1 | 0.5028 -40.1213 -34.1469 mal2 | 0.6269 -42.5598 -36.8932

比较模型时,较高调整 R 2 ,和较低的IC,表明拟合和降低的自由度之间有较好的权衡。结果显示,在通过调整进行评估时,倾向于包括滞后结构 R 2 这种不一致并不少见,特别是在小样本的情况下,这进一步表明了多种测试方法的比较使用。

BIC对附加系数的惩罚通常更重,倾向于选择更简单的模型,尽管通常不像顺序选择的模型那么简单t而且F使用标准设置进行测试。BIC具有一些优越的大样本特性,例如渐近一致,但蒙特卡罗研究表明,AIC在正确识别小数据样本中的DGP方面优于BIC[6].AIC的另一种版本,AICc,校正小样本,在这些情况下特别有用。

向上测试,向下测试

当试图在计量经济学模型中指定显著但简约的滞后结构时,通常使用两种一般策略。第一种方法是从一个小模型开始,然后测试其他滞后,直到它们的个体显著性或整个滞后结构的联合显著性下降到设定的水平以下。这叫做测试了.或者,系统地修整一个宽裕的初始滞后结构,直到最大的滞后或整个滞后结构变得显著。这叫做测试下

测试从数据的简洁描述开始,例如带有相关预测因子的同期值但没有动态项的静态模型。然后,它从具体到一般。过程中的每个步骤都评估添加新延迟的效果,通常使用的组合t测试中,F测试、CMM测试或IC。当添加新的延迟在某个预定水平上变得不重要时,它将停止。它以这种方式保证了初始模型在某种程度上的简约性。

承认奥卡姆剃刀理论和科学方法的原则,向上测试提供了许多优势。简单模型的计算成本更低,更容易解释和检测错误,更适合小样本,更易于泛化。此外,他们往往能做出更好的预测[10]

然而,对于滞后顺序选择和一般的经济建模,通常不鼓励向上测试。有一种常见的情况,在第一个不重要的滞后之外存在显著的滞后,例如季节性滞后。自动测试不会检测到这些。此外,在还没有添加到模型中的忽略变量的情况下进行顺序测试,会产生估计量偏差和测试大小和功率的扭曲,最终导致不正确的推断。例子中讨论了省略的变量偏差时间序列回归IV:伪回归而且时间序列回归VIII:滞后变量和估计偏差

因此,通常建议进行向下测试[9].这个策略从一个包含所有潜在解释变量的模型开始。也就是说,它包含了在解释反应变化方面或多或少具有重要意义的预测因子的混合。然后从一般到具体(有时称为GETS)。该过程中的每一步都使用与向上测试相同的测试来评估移除预测因子的效果。当受限模型达到某种预定的显著性水平时,它就会停止。

这种方法有几个优点。如果初始模型和滞后结构足够全面,那么至少在原则上,所有的测试都是在没有遗漏的变量偏差的情况下完成的。局部测试(例如对最大滞后的测试)可能导致模型继续包含重要滞后和不重要滞后的混合,但由于它们都存在于模型中,因此可以检查它们的联合显著性。这种方法的缺点是在不同建模情况下选择初始滞后顺序时缺乏理论指导,甚至缺乏良好的启发式提示。

下表显示p的值t滞后系数统计年龄在1到5阶滞后结构中:

流(统计p值\n
统计值
流(-11年代“\ n % % 5 s % 5 s % 5 s % 5 s % 5 s '“模型|”...“到”“AL2”“与”“AL4”“AL5”
型号| AL1 AL2 AL3 AL4 AL5
流([' \ n 'repmat (“=”1 35)])
===================================
滞后= 1:5 pVals = MAL{滞后}.Coefficients.pValue(2:滞后+1);流([' \ n % 9 s '“|”repmat (' % -5.2 f '1滞后)...MALName{滞后},pVals(1:滞后))结束
Mal1 | 0.34 mal12 | 0.81 0.14 mal123 | 0.77 0.45 0.44 mal1234 | 0.55 0.76 0.55 0.30 mal12345 | 0.88 0.91 0.19 0.14 0.29

在15%的显著性水平上,测试从M0没有给模型添加滞后,因为它不能拒绝为的零系数AgeLag1在测试的第一个模型中,MAL1.在同一层次上,从最大模型向下测试,依次评估最大滞后的显著性,MAL12,将两个滞后添加到M0.不同滞后结构中特定滞后的相对重要性突出了自动化这些本地化评估的风险。

F统计数据为联合显著性提供了有用的信息。F相对于具有所有先前滞后的模型,对附加滞后的测试等效于t测试,用的一样p值。然而,F相对于静态规范,整个滞后结构的测试可以在最大滞后之前提供显著滞后的提示。F比率由coefTest方法LinearModel类:

流(统计p值\n
统计值
流(-11年代“\ n % % 5 s % 5 s”“模型|”“最后一次”“所有”
型号|最后所有
流([' \ n 'repmat (“=”1 20)])
====================
滞后= 1:5%连续F测试(最后滞后= 0):HSq =[0(1,滞后),1,0 (1,4)];pSq = coefTest(MAL{滞后},HSq);%静态F测试(所有滞后= 0):HSt =[零(滞后,1),眼睛(滞后),零(滞后,4)];pSt = coefTest(MAL{滞后},HSt);流([' \ n % 9 s '“|”' % -5.2 f '' % -5.2 f '), MALName{滞后},pSq pSt)结束
Mal1 | 0.34 0.34 mal12 | 0.14 0.32 mal123 | 0.44 0.65 mal1234 | 0.30 0.74 mal12345 | 0.29 0.54

F统计数据不能启动一个停滞的向上测试策略,但当向下测试时,它们确实给了重新考虑最大模型的理由,因为它相对较低p价值。越来越重要的是AgeLag3而且AgeLag4MAL12345,由t统计p价值观,提高滞后结构的联合意义。尽管如此,最显著的整体滞后结构仍在MAL12,与测试下降通道一致t统计数据。

可以预测的是,蒙特卡罗研究表明,当DGP是一个超模型时,自动向上测试策略经常会不适合,而当DGP是一个子模型时,自动向下测试策略也会过度适合[14].在任何情况下,性能都可以通过系统地调整显著性水平来提高,以考虑不同的自由度。然而,一般来说,排除相关滞后的统计结果通常被认为比包括不相关滞后更严重,并且必须相应地设置排斥容差。

在实践中,混合策略通常是首选的,将预测因子移进和移出模型,直到某个拟合措施得到优化,从而获得经济上合理的模型。逐步回归(在示例中描述)时间序列回归V:预测因子选择)是将此方法自动化的一种方法。借助现代计算能力,在某些情况下,也有可能详尽地评估所有相关模型。然而,正如这个例子所说明的那样,必须以某种怀疑的态度来看待模型选择过程的自动化。这个过程必然是动态的,测试有不同程度的相关性,决策最终需要考虑经济理论和建模目标。

特殊情况

由于在违背CNLM假设的建模上下文中使用标准测试过程的困难,已经开发了许多专门的过程用于特定的模型类型。在某些情况下,仅通过数据分析就可以确定适当的滞后顺序。其他情况需要一系列候选模型的顺序估计和评估。

  • ARMA模型.理论上,平稳时间序列通常用无限阶MA过程表示[18].ARMA模型将这些表示转换为有限的、合理的形式。一个模型的AR和MA分量的滞后顺序必须一起选择,以实现精度和模型简约性之间的平衡。标准识别方法[4],示例中描述Box-Jenkins模型选择,检查样本自相关函数中的模式,以确定候选滞后结构的相对显著性。

  • ARDL模型.许多经济变量受到外生驱动过程的影响,而外生驱动过程会给DGP带来持续的冲击。理论上,这些由无限阶DL模型表示,但与ARMA模型一样,实际估计需要有限的有理形式。标准技术,比如阿尔蒙提出的那些[1]和Koyck[13],为滞后结构分配权重,使模型可以转换为AR、ARMA或ARMAX形式。这些方法比数据驱动的方法更特别,并且受到来自于在接近时间使用预测器的许多滞后的共线性问题的影响。(参见示例时间序列回归II:共线性和估计方差.)

  • GARCH模型.GARCH模型常用来模拟创新过程中的异方差模式,尤其是在金融应用中。像ARMA和ARDL模型一样,它们结合了两种类型的滞后,并且必须适当地平衡订单。在实践中,有多种方法可以将GARCH模型转换为ARMA形式[8]在美国,可以应用Box-Jenkins方法,但在实践中很少这样做。对于大多数经济和金融系列,1和1的滞后顺序似乎很适用。

  • 单位根检验.单位根和平稳性检验,如adftest而且lmctest,采用动态模型的测试过程,并要求用户选择一个滞后顺序。这个有害参数会对测试结果产生重大影响。在这种情况下,非平稳数据的潜在存在对标准的使用提出了质疑t而且F测试。然而,西姆斯、斯托克和华生[17]已经表明,当回归包括DGP的所有确定性成分时,它们是合理的。

  • VAR模型.VAR模型是一种通用的,广泛用于表示相互作用的经济变量系统的形式。它们需要一个捕获相关历史的滞后顺序所有模型中的变量。由于模型是多元的,估计成本随着滞后阶数的增加而快速增长,因此精简的选择过程是必不可少的。Lutkepohl[15]讨论各种策略,其中大多数是本例中提供的技术的多元泛化。

总结

本例调查了延迟顺序选择的常见策略,并说明了将策略适应于单个数据集和模型的情况。这里考虑的数据很少,离渐近分析的理想化还很远。研究中的模型也很有可能被错误指定,混淆了其自身的评估。然而,这些障碍在计量经济学实践中是相当典型的。如果没有经过考虑的“实际操作”应用,在某种经济现实的指导下,滞后顺序选择为扭曲的推断提供了许多机会,从而导致模型表现不佳。但是,熟悉这些常见的困难可以帮助您实现更清晰的规范。

当然,并不总是需要选择一个“最佳”模型或滞后顺序。通常,考虑到统计上的不确定性,排除大量不太可能的候选对象就足够了,留下更小的子集供进一步分析和数据收集。这个例子的策略很好地达到了这个目的。

参考文献

[1]阿尔蒙,S。“资本拨款和支出之间的分布滞后。”费雪。卷33,1965,第178-196页。

[2]安德鲁,d.w. K。异方差和自相关一致性协方差矩阵估计。费雪.第59卷,1991年,第817-858页。

[3]安德鲁斯,D. W. K.和J. C.蒙汉。一种改进的异方差自相关一致性协方差矩阵估计。费雪.第60卷,1992年,第953-966页。

[4]博克斯,乔治·e·P,格温林·m·詹金斯,格里高利·c·赖塞尔。时间序列分析:预测与控制.恩格尔伍德悬崖,新泽西州:普伦蒂斯大厅,1994年。

[5]班纳吉,A. N.和J. R.马格努斯。《论寻常的敏感t- - -F-对协方差错误规范的检验。”计量经济学杂志.卷95,2000,第157-176页。

[6]伯纳姆,肯尼斯·P·和大卫·r·安德森。模型选择与多模型推断:一种实用的信息理论方法.第二版,纽约:施普林格,2002年。

[7]戴维森,R.和E.弗拉希尔。《狂野的靴子,终于被驯服了》计量经济学杂志。Vol. 146, 2008, pp. 162-169。

[8]汉密尔顿,詹姆斯D。时间序列分析.普林斯顿,新泽西州:普林斯顿大学出版社,1994。

[9]亨德利,d.f。计量经济学:炼金术还是科学?牛津:牛津大学出版社,2001年。

[10]科曾坎普,H. A.和M.麦卡利尔。"简洁性,科学推论和经济模型"经济日报.第105卷,1995年,第1-21页。

[11]基弗,n.m., T. J.沃格尔桑,H.邦泽尔。"回归假设的简单稳健检验"费雪.Vol. 68, 2000, pp. 695-714。

[12]金,m.l.。球面对称性的稳健检验及其在最小二乘回归中的应用统计年鉴.卷8,1980,第1265-1271页。

[13]科克,l.m。分布式滞后模型与投资分析.阿姆斯特丹:北荷兰,1954年。

[14]克罗齐格,H. -M。,而且Hendry, D.F. "Computer Automation of General-To-Specific Model Selection Procedures."经济动态与控制杂志.卷25,2001,第831-866页。

[15]Lutkepohl,赫尔穆特。多重时间序列分析新导论.纽约州纽约:斯普林格出版社,2007年。

[16]秦,H.和A. T. K. Wan。的性质t- - -F-非正态误差线性回归中的比值计量经济学理论.卷20,2004年第4期,第690-700页。

[17]西姆斯C,斯托克J,华生M。带单位根的线性时间序列模型的推理费雪.卷58,1990,第113-144页。

[18]荒原,H。平稳时间序列分析的研究.乌普萨拉,瑞典:Almqvist & Wiksell, 1938。