时间序列回归七:预测

这个例子显示了生产条件和无条件的基本设置从多元线性回归预测模型。第七个在一系列的例子在时间序列回归,表示在之前的例子。

介绍

许多在经济学是建立回归模型解释的目的,了解相关的经济因素之间的相互关系。这些模型的结构通常是提出的理论。规范分析比较各种模型的扩展和限制来评估个人预测的贡献。在这些分析测试意义尤其重要。建模的目标是实现一个良好的、准确地校准描述重要的依赖关系。可靠的解释性模型可以用来通知计划和政策决定通过识别因素需要考虑更多的定性分析。

回归模型也用于定量预测。这些模型通常是由一组初始(也许是空的,可能相当大)潜在的相关预测因子。探索性数据分析和预测选择技术在这些分析尤为重要。建模的目标,在这种情况下,准确地预测未来。一个可靠的预测模型可以用来识别风险因素参与投资决策和他们的关系等重要结果未来的违约率。

它是很重要的,在实践中,区分下回归模型研究的类型。如果一个预测模型是建立通过探索性分析,可以评价其整体预测能力,但不是个人预测的意义。特别是,误导使用相同的数据构建一个模型,然后推断它的组件。

这个例子主要关注多元线性回归预测方法(高)模型。本质上是多元的方法,预测反应的过去和现在的预测变量的值。因此,方法是本质上不同的最小均方误差(MMSE)方法用于单变量建模、预测是基于历史的一个系列。

我们首先从前面的示例加载相关数据时间序列回归VI:残留的诊断:

负载Data_TSReg6

有条件的预测

回归模型描述产生的反应,或有条件的相关值的预测变量。如果一个模型已经成功地捕获的数据生成过程的基本动力学(文章),它可以用来探索应急场景预测数据是假设,而不是观察到。

模型认为在本系列的例子已经校准和测试使用预测数据X0,测量时间t和响应数据y0,测量时间t+ 1。中的时移数据意味着这些模型提供领先一步预测的响应,有条件的预测。

进一步预测未来,唯一的必要调整是估计数据变化较大的模型。例如,预测未来两个步骤,响应数据测量时间t+ 2 (y0(2:结束))可能是退化预测数据测量时间t(X0 (1: end-1))。当然,必须重新审视以前的模型分析,确保可靠性。

为了说明这一点,我们使用M0模型制作条件点预测2006年的违约率,在2005年的预测提供了新的数据的变量X2005:

betaHat0 = M0.Coefficients.Estimate;yHat0 = [1, X2005] * betaHat0;D =日期(结束);Xm = min ([X0 (:); X2005 '));XM = max ([X0 (:); X2005 '));图保存在情节(日期,X0,“线宽”,2)情节(D: D + 1, (X0(最终:);X2005),* - - - - - -。,“线宽”2)填充([D D D + 1 D + 1], [Xm Xm Xm Xm],“b”,“FaceAlpha”,0.1)从传奇(predNames0“位置”,“西北”)包含(“年”)ylabel (的预测水平)标题(“{\ bf新的预测数据}”)轴紧网格在

图包含一个坐标轴对象。坐标轴对象与标题空白N e w空白P r e d i c t o r空白d t包含9线,类型的对象。这些对象代表年龄,BBB,论坛,SPR。

Ym = min ([y0, yHat0]);YM = max ([y0, yHat0]);图保存在情节(日期,y0,“k”,“线宽”2);情节(D: D + 1, y0(结束);yHat0),“*同意”,“线宽”2)填充([D D D + 1 D + 1], [Ym Ym Ym Ym),“b”,“FaceAlpha”,0.1)从传奇(respName0“位置”,“西北”)包含(“年”)ylabel (“响应级别”)标题(“{\ bf预测响应}”)轴紧网格在

图包含一个坐标轴对象。坐标轴对象与标题空白F o r e c s t r e s p o n s e包含3线类型的对象,补丁。该对象代表IGD。

我们可以看到,SPR风险因素大约从2004年到2005年不变,而适度降低年龄和BBB风险因素的下降所抵消论坛。论坛负模型系数,所以下降与风险增加有关。最终的结果是一个预测的违约率。

无条件的预测

在缺乏新的预测数据(或假设),一个无条件的预测的响应可能是理想的。

一种方法是创建一个动态的、单变量模型的响应,如ARIMA模型、独立的预测因子。ARIMA模型依赖于自我的存在,从一个时期到下一个系列的,该模型可以利用预测的目的。ARIMA模型讨论了其他文档。

或者,一个动态的、多变量的预测模型可以建立。这允许新值预测的预测,而不是观察到。回归模型可以用来预测响应,条件预测的预测。

鲁棒多变量预测是由向量自回归(VAR)模型。没有结构VAR模型假设的形式模型变量之间的关系。它只假定,每一个变量潜在的影响其他。形成动态回归方程组,每个变量出现在左边的一个方程,和相同的滞后值的所有变量,并可能拦截,出现在右手边的所有方程。这个想法是为了让回归解决哪些术语实际上是重要的。

例如,一个VAR(3)模型的预测违约率模型是这样的:

$一个 G E_{t} = {一个}_{1} + \sum_{我 = 1}^{3} b_{11 我} 一个 G E_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{12 我} B B B_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{13 我} C P F_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{14 我} 年代 P R_{t - - - - - - 我} + ϵ_{1 t}$

$B B B_{t} = {一个}_{2} + \sum_{我 = 1}^{3} b_{21 我} 一个 G E_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{22 我} B B B_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{23 我} C P F_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{24 我} 年代 P R_{t - - - - - - 我} + ϵ_{2 t}$

$C P F_{t} = {一个}_{3} + \sum_{我 = 1}^{3} b_{31 我} 一个 G E_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{32 我} B B B_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{33 我} C P F_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{34 我} 年代 P R_{t - - - - - - 我} + ϵ_{3 t}$

$年代 P R_{t} = {一个}_{4} + \sum_{我 = 1}^{3} b_{41 我} 一个 G E_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{42 我} B B B_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{43 我} C P F_{t - - - - - - 我} + \sum_{我 = 1}^{3} b_{44 我} 年代 P R_{t - - - - - - 我} + ϵ_{4 t}$

的数量模型中的系数是变量的数量乘以自回归滞后的数量乘以数量的方程,加上拦截的数量。即使只有几个变量,模型具有良好的滞后结构可以快速增长规模使用小样本数据,估计是站不住脚的。

Equation-by-equation OLS估计与VAR模型表现良好,因为每个方程都有相同的解释。这是真的,无论任何cross-equation协方差可能存在的创新。此外,纯粹的自回归估计数值非常稳定。

估计的数值稳定性,然而,依赖于所建模的变量的平稳性。差,静止的预测变量导致可靠的预测的差异。然而,undifferenced预测数据可能需要预测回归模型的响应。集成预测差异有可能产生扭曲的预测水平(见,例如,[2])。然而,标准的建议是使用固定变量VAR,假设一个简短的地平线会产生最小的重返社会的错误。

VAR估计和预测的功能估计和预测。以下生产无条件点预测违约率从2005年的M0回归模型:

%估计VAR(1)差预测模型(% undifferenced岁| |):numLags = 1;D1X0PreSample = D1X0 (1: numLags,:);D1X0Sample = D1X0 (numLags + 1:最终,);numPreds0 = numParams0-1;VARMdl = varm (numPreds0 numLags);EstMdl =估计(VARMdl D1X0Sample,“Y0”,D1X0PreSample);%预测D1X0的预测:地平线= 1;ForecastD1X0 =预测(EstMdl,地平线,D1X0);%集成差预测得到undifferenced预测:ForecastX0 (1) = ForecastD1X0 (1);%的年龄ForecastX0 (2:4) = X0(最终,2:4)+ ForecastD1X0 (2:4);%其他预测Xm = min ([X0 (:); ForecastX0 (:)));XM = max ([X0 (:); ForecastX0 (:)));图保存在情节(日期,X0,“线宽”,2)情节(D: D + 1, (X0(最终:);ForecastX0),* - - - - - -。,“线宽”2)填充([D D D + 1 D + 1], [Xm Xm Xm Xm],“b”,“FaceAlpha”,0.1)从传奇(predNames0“位置”,“西北”)包含(“年”)ylabel (的预测水平)标题(“{\ bf预报预测}”)轴紧网格在

图包含一个坐标轴对象。坐标轴对象与标题空白F o r e c s t P r e d i c t o r s包含9线类型的对象,补丁。这些对象代表年龄,BBB,论坛,SPR。

%的响应预测回归模型:ForecastY0 = [1, ForecastX0] * betaHat0;Ym = min ([y0, ForecastY0]);YM = max ([y0, ForecastY0]);图保存在情节(日期,y0,“k”,“线宽”2);情节(D: D + 1, y0(结束);ForecastY0),“*同意”,“线宽”2)填充([D D D + 1 D + 1], [Ym Ym Ym Ym),“b”,“FaceAlpha”,0.1)从传奇(respName0“位置”,“西北”)包含(“年”)ylabel (“响应级别”)标题(“{\ bf预测响应}”)轴紧网格在

图包含一个坐标轴对象。坐标轴对象与标题空白F o r e c s t r e s p o n s e包含3线类型的对象,补丁。该对象代表IGD。

结果是一个无条件的预测,类似于条件预测与实际2005年数据。滞后的预测数量取决于使用的VAR模型,numLags。选择一个适当的滞后长度是解决问题的例子时间序列回归第九:延迟订单的选择。

生成的预测预测是nonstochastic,因为它使用样本之外的新鲜感的创新。生成一个随机预测,与特定的结构创新,使用模拟或过滤器。

预测误差

无论如何获得新的预测数据,预测从高模型将包含错误。这是因为高模型,就其本质而言,预测只有预期值的响应。例如,高钙模型

$y_{t} = X_{t} β + e_{t},$

预测 $y_{t + 1}$ 使用

${y_{}^{ˆ}}_{t + 1} = E (y_{t + 1}] = X_{t + 1} β_{}^{ˆ} 。$

错误发生的原因有两个:

$•$ 天气预报不整合创新 $e_{t + 1}$ 。

$•$ 抽样误差产生 $β_{}^{ˆ}$ 不同于 $β$ 。

作为讨论的例子时间序列回归二世:共线性和估计方差,预测误差 ${y_{}^{ˆ}}_{t + 1} - - - - - - y_{t + 1}$ 如果减少

$•$ 更大的样本量。

$•$ 预测的变化比较大。

$•$ $X_{t + 1}$ 更接近其平均值。

说,最后一项预测改进当他们接近的中心分布的样本值用来估计模型。这导致区间的预测非常数的宽度。

如果正常,同方差的创新,可以转换为点的预测 $N (y_{t + 1} | X_{t}, σ^{2})$ 密度和区间预测使用标准公式(见,例如,[1])。作为讨论的例子时间序列回归VI:残留的诊断然而,标准公式变得偏见和低效的autocorrelated或异方差的创新。在这种情况下,间隔可以使用一个适当的模拟预测的一系列创新,但它通常是建议一个模型是respecified标准化创新尽可能多。

通常抑制部分数据预测评估,并估计模型与初始子样品。基本性能测试比较了均方根误差(RMSE) out-of-subsample预测的RMSE简单,基线预测,最后一个样本值的反应常数。如果模型预测并不显著改善基线预测,那么它是合理的怀疑没有抽象模型相关文章的经济力量。

例如,下面的测试的性能M0模型:

numTest = 3;%的观察测试%的培训模式:X0Train = X0 (1: end-numTest,:);y0Train = y0 (1: end-numTest);M0Train = fitlm (X0Train y0Train);%测试集:X0Test = X0 (end-numTest + 1:最终,);y0Test = y0 (end-numTest + 1:结束);%的预测错误:y0Pred =预测(M0Train X0Test);DiffPred = y0Pred-y0Test;DiffBase = y0Pred-y0 (end-numTest);%的预测比较:RMSEPred =√(DiffPred * DiffPred) / numTest)

RMSEPred = 0.1197

RMSEBase =√(DiffBase * DiffBase) / numTest)

RMSEBase = 0.2945

该模型相对于基线预测预测显示改进。然而,它是有用的重复的测试与不同的值numTest。这是复杂的有影响力的观察,2001年年底前三个观测数据。

如果一个模型通过基线测试,与完整的示例,它可以重新评估M0。测试有助于区分模型的适应能力捕捉文章的动力。

总结

产生新响应值从一个回归模型,预测的新值是必需的。当新的预测值假设或观察到,响应数据是使用回归方程外推。无条件的推断,新预测的值必须预测,与一个VAR模型。预测的质量取决于样本内适合的模型,以及模型的保真度的文章。

任何预测模型的基本假设是,经济数据模式所描述的模型将持续到未来。这是一个关于文章的稳定性。社会机制推动经济过程,然而,不稳定。预测模型的价值,特别是由探索性数据分析,可以是短暂的。在良好的经济理论基础的寿命将提高一个模型,但是预测过程的波动性质必须承认。这种不确定性是被俘,在某种程度上,模型的预测误差。

计量经济实践表明,简单预测模型通常表现最好的。

引用

[1]Diebold, f . X。预测的元素。梅森,哦:汤姆森高等教育出版社,2007年。

[2]格兰杰,C。,和P。Newbold. "Forecasting Transformed Series."英国皇家统计学会杂志》上。系列B, 38卷,1976年,页189 - 203。