时间序列回归我：线性模型

打开实时脚本

此示例介绍了多个线性回归模型后面的基本假设。它是第一个关于时间序列回归的一系列示例，为所有后续实施例提供基础。

多个线性模型

时间序列过程通常用多元线性回归（MLR）表格的模型：

$y_{T.} = X_{T.} β + {E.}_{T.} 那$

在哪里 $y_{T.}$ 是观察到的反应和 $X_{T.}$ 包括用于观察到的预测的同期值的列。的偏回归系数在 $β$ 代表个体预测因子对变量的边际贡献 $y_{T.}$ 当所有其他预测器都保持不变时。

期限 ${E.}_{T.}$ 是预测和观察值之间的差异 $y_{T.}$ ．这些差异是由于工艺波动（在变化 $β$ )、测量误差(变更 $X_{T.}$ )，以及模型错误说明（例如，忽略了预测值或模型之间的非线性关系） $X_{T.}$ 和 $y_{T.}$ )．它们也来自于基础数据生成过程(DGP)的内在随机性，这也是模型试图表示的。人们通常认为 ${E.}_{T.}$ 是由不可观察的创新过程与静止的协方差

${ω.}_{T.} = C O. V. （ {{E.}_{1} 那．．．那 {E.}_{T.}} ）那$

对于长度的任何时间间隔 $T.$ ．在对一些进一步的基本假设 $X_{T.}$ 那 ${E.}_{T.}$ ，以及它们之间的关系，对 $β$ 通过普通的最小二乘（OLS）获得。

正如其他社会科学，经济数据通常是由被动观察收集的，没有控制的实验援助。理论上相关预测可能需要通过实际可用的代理服务器来代替。经济观察，反过来，可能只有有限的频率，低可变性，以及强大的相互依存关系。

这些数据的缺陷导致了OLS估计的可靠性和用于模型说明的标准统计技术方面的一些问题。系数估计可能对数据测量误差敏感，使显著性检验不可靠。多个预测因子的同时变化可能会产生相互作用，而这种相互作用很难区分为单独的影响。观察到的反应变化可能与预测因子的变化相关，但不是由预测因子的变化引起的。

在提供数据的情况下评估模型假设是规范分析的目标。当一个模型的可靠性变得可疑，切实可行的解决方案可能是有限的，但深入分析可以帮助识别任何问题的根源和程度。金宝搏官方网站

这是讨论指定和诊断MLR模型的基本技术的一系列示例中的第一个。该系列还提供了一些通用策略，以解决在处理经济时间序列数据时出现的具体问题。

经典假设

经典线性模型（CLM）假设允许OLS产生估计 $β_{}^{ˆ}$ 具有理想的性能[3]。基本假设是MLR模型和所选预测值正确指定了基础DGP中的线性关系。其他CLM假设包括：

$X_{T.}$ 是全级别（预测器中没有共同性）。
${E.}_{T.}$ 是不相关的 $X_{S.}$ 对所有 $S.$ （预测因子的严格重点）。
${E.}_{T.}$ 是不自相关的( ${ω.}_{T.}$ 是对角)。
${E.}_{T.}$ 是同性恋（对角线条目 ${ω.}_{T.}$ 都是 ${σ.}^{2}$ )．

假设 $ε = β_{}^{ˆ} - β$ 是估计误差。这个偏见估计量的最大值是 $E. [ε]$ 和均方误差(MSE) $E. [ε^{'} ε]$ 。均方误差是估计方差和偏差平方的总和，因此它简洁地总结了估计误差的两个重要来源。关于模型残差，不应将其与回归均方误差混淆，因为模型残差依赖于样本。

所有的估计器在最小化均方误差的能力上都是有限的，均方误差永远不能小于最小均方误差Cramér-Rao下界[1]．这个界是通过极大似然估计(MLE)渐近地实现的(即随着样本容量的增大)。然而，在有限样本中，特别是在经济学中遇到的相对较小的样本中，其他估计量可能在相对效率也就是说，就实现的MSE而言。

根据CLM的假设，高斯 - 马尔科夫定理说，OLS估计 $β_{}^{ˆ}$ 是蓝色：

B.est（最小方差）
L.线性(数据的线性函数)
你偏见的( $E. [β_{}^{ˆ}] = β$ ）
E.系数的刺激剂 $β$ ．

最佳加入线性估算中的最低MSE。线性度很重要，因为线性矢量空间理论可以应用于估计器的分析（例如，参见[5])．

如果是创新 ${E.}_{T.}$ 都是正态分布的,， $β_{}^{ˆ}$ 也是正态分布。在这种情况下，是可靠的 $T.$ 和 $F$ 可以对系数估计进行检验，以评估预测器的显著性，并可以使用标准公式构造置信区间来描述估计器的方差。正常也允许 $β_{}^{ˆ}$ 实现Cramér-Rao下限（它变成了高效的），估计与MLE相同。

无论分布如何 ${E.}_{T.}$ ，中央限制定理确保了 $β_{}^{ˆ}$ 将在大样本中近似正态分布，因此与模型规范相关的标准推理技术将渐近有效。然而，如前所述，经济数据的样本通常相对较小，并且不能依赖中心极限定理来产生估计的正态分布。

静态计量经济学模型表示只对当前事件作出反应的系统。静态MLR模型假设构成预测列的预测因子 $X_{T.}$ 是同一个时间的响应 $y_{T.}$ ．对于这些模型来说，CLM假设的评估相对简单。

相比之下，动态模型使用滞后预测值随时间合并反馈。CLM假设中没有明确排除具有滞后或超前的预测值。事实上，滞后预测值外生预测 $X_{T. - K.}$ ，不与创新互动 ${E.}_{T.}$ 不要在自己，影响OLS估计的高斯 - 马尔科夫最优。如果预测包含接近滞后 $X_{T. - K.}$ 那 $X_{T. - K. - 1}$ 那 $X_{T. - K. - 2}$ ，…，但是，正如经济模型通常所做的那样，可能会引入预测相互依赖性，违反CLM的无共线假设，并产生OLS估计的相关问题。示例中讨论了此问题时间序列回归II:共线性和估计量方差．

当预测是内生，由响应的滞后值决定 $y_{T.}$ （自回归模型），通过预测因子和创新之间的递归交互，违反了CLM严格外生性假设。在这种情况下，会出现其他更严重的OLS估计问题。示例中讨论了该问题时间序列回归VIII：滞后变量和估计偏差．

违反CLM假设 ${ω.}_{T.}$ （非球形创新)在示例中讨论了这些问题时间序列回归VI：残留诊断．

违反CLM假设的不一定不一定使OLS估计的结果无效。然而，重要的是要记住，个人违规行为的效果将是或多或少的影响，这取决于它们是否与其他违规行为相结合。规范分析试图确定全部违规行为，评估模型估计的影响，并提出了建模目标背景下的可能补救措施。

时间序列数据

考虑信贷违约率一个简单的模型MLR。文件Data_CreditDefaults.mat包含有关投资级公司债券违约的历史数据，以及1984年至2004年的四个潜在预测因子的数据：

加载Data_CreditDefaults

X0=数据（：，1:4）；初始预测器集(矩阵)X0Tbl = DataTable (:, 1:4);%初始预测集（表格数组）predNames0=系列（1:4）；%初始预测器集名称T0 =尺寸（X0,1）;％样本大小y0=数据（：，5）；％响应数据respname0 =系列{5};％响应数据名称

潜在的预测，对今年测T.,有:

年龄投资级债券发行人在3年前首次获得评级的百分比。这些相对较新的发行人在首次发行的资本支出后(通常是在大约3年后)具有较高的违约经验概率。
BBB.与标准普尔信用评级BBB，最低投资级别的投资级债券发行人的百分比。这一比例代表了另一种危险因素。
中央公积金提前一年预测公司利润的变化，经通胀调整。该预测是对整体经济健康状况的衡量，作为更大商业周期的指标。
SPR公司债券收益率和那些可比国债之间的利差。价差是当前问题的风险的另一项措施。

以年为单位衡量的反应T.+1，是：

IGD投资级公司债券的违约率

如上所述[2]和[4]，预测器是由其他系列构成的代理。建模目标是产生一个动态的预测模型，在响应中有一年的铅（同等，预测器中的一年滞后）。

我们首先检查数据，将日期转换为日期时间向量，以便实用程序函数recessionplot可以覆盖显示业务周期中相关点的乐队：

%将日期转换为日期时间向量：DT =日期时间（串（日期），“格式”那'YYYY'）;% Plot潜在预测因子:图;情节(dt, X0,“线宽”，2）recessionplot;包含('年')伊拉贝尔(的预测水平）图例（predNames0，“位置”那“西北”） 标题（'{\ BF潜在预测}'）轴（'紧的'） 网格（'在'）

图中包含一个轴对象。带有标题空白的轴对象P o t i a l空白p r e d i c t o r s包含6型对象，贴片。这些对象代表年龄，BBB，CPF，SPR。

％绘图响应：图;持有('在'）;图（DT，Y0，数k那“线宽”，2）；绘图（dt，y0 detrend（y0），“我——”)持有('离开'）;recessionplot;包含('年')伊拉贝尔('响应水平')传说(respName0“线性趋势”那“位置”那“西北”） 标题（“{\bf响应}”）轴（'紧的')；网格('在'）;

图中包含一个轴对象。标题空白的轴对象包含类型为line、patch的4个对象。这些对象代表了IGD(线性趋势)。

我们看到了BBB.与其他预测因子的量表略有不同，并且随着时间的推移呈趋势。因为响应数据是针对一年的T.+ 1，违约率峰值实际上遵循经济衰退T.= 2001.

模型分析

现在预测和响应数据可被组装成一个MLR模型，及OLS估计的 $β_{}^{ˆ}$ 可以使用MATLAB反斜杠找到(\）操作员：

%向模型添加截距：x0i = [oon（t0,1），x0];%母体x0itbl = [表（t0,1），“VariableNames”,{“常量”})，X0Tbl]；％ 桌子估计= X0I \ y0

估计=5×1-0.2274 0.0168 0.0043 -0.0149 0.0455

或者，可以使用线性模型对象功能，提供诊断信息和许多方便的分析选项。功能Fitlm.用来估计 $β_{}^{ˆ}$ 从数据。默认情况下它增加了一个拦截。传入数据以表格阵列的形式，其中变量名，并且在最后一列中的响应值，返回与标准诊断统计拟合模型：

m0 = fitlm（DataTable）

M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPREstimate SE tStat pValue _________ _________ _______ _________ (Intercept) -0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21，误差自由度:16均方根误差:0.0763 R-squared: 0.621, Adjusted R-squared: 0.526 F-statistic vs. constant model: 6.56, p-value = 0.00253

关于该模型的可靠性还有很多问题需要问。预测因子是否是所有潜在反应预测因子的良好子集？系数估计值是否准确？预测因子与反应之间的关系是否确实是线性的？模型预测是否可靠？简言之，模型是否明确规定，OLS是否有效很好地将其与数据相匹配？

另一个线性模型目标函数,方差分析以表格的阵列的形式返回附加拟合统计用于在多个扩展规范分析比较嵌套模型，有用的：

方差分析=方差分析（M0）

ANOVATable =5×5表SUMSQ DF MeanSq˚Fp值________ __ _________ ______ _________ AGE 0.019457 1 0.019457 3.3382 0.086402 0.014863 BBB 1 0.014863 2.55 0.12985 CPF 0.089108 1 0.089108 15.288 0.0012473 SPR 0.010435 1 0.010435 1.7903 0.1996错误0.09326 16 0.0058287

概括

模型规范是计量计量分析的基本任务之一。基本工具是回归，在最广泛的参数估计感，用于评估一系列候选模型。然而，任何形式的回归都依赖于某些假设和某些技术，几乎从未在实践中完全合理。因此，通过单一应用具有默认设置的标准过程很少获得信息丰富的可靠回归结果。相反，他们需要考虑规范，分析和重新审议的循环，通过实际经验，相关理论和意识到许多情况的意识，据考虑统计证据很差，可以混淆可欣然的结论。

探索性数据分析是此类分析的关键组成部分。实证计量经济学的基础是，好的模型只有通过与好的数据的相互作用才能产生。如果数据有限(这在计量经济学中经常发生)，分析必须承认由此产生的歧义，并帮助确定一系列可供考虑的替代模型。装配最可靠的型号没有标准的程序。好的模型从数据中产生，并能适应新的信息。

本系列中的后续示例考虑线性回归模型，由一组潜在的预测因子构建并校准为相当小的一组数据。尽管如此，这些技术和所考虑的MATLAB工具箱函数仍然是典型规范分析的代表。更重要的是，从最初的数据分析，到初步的模型建立和完善，最后到在预测性能的实际领域进行测试，这一工作流程也是相当典型的。正如大多数实证研究一样，过程才是关键。