时间序列回归我：线性模型

打开生活的脚本

本例介绍背后多元线性回归模型的基本假设。它是在时间序列回归了一系列的例子，第一，所有后续的实例提供了基础。

多元线性模型

时间序列过程通常由多元线性回归（MLR）形式的模型：

$ÿ_{Ť} = X_{Ť} β + Ë_{Ť} ，$

在哪里 $ÿ_{Ť}$ 是否观察到响应和 $X_{Ť}$ 包括用于观察到的预测的同期值的列。的偏回归系数在 $β$ 表示个体预测因子对变量in的边际贡献 $ÿ_{Ť}$ 当所有其他谓词都保持固定时。

期限 $Ë_{Ť}$ 是包罗了所有的预测和观察值之间的差 $ÿ_{Ť}$ 。这些差异是由于工艺波动（在变化 $β$ ，测量误差 $X_{Ť}$ )，以及模型规格说明错误(例如，遗漏了预测器或之间的非线性关系 $X_{Ť}$ 和 $ÿ_{Ť}$ )。它们还产生于底层数据生成过程(DGP)中固有的随机性，而该模型试图表达这种随机性。通常认为 $Ë_{Ť}$ 由观察不到产生的创新过程与静止的协方差

$Ω_{Ť} = C Ø v （ {Ë_{1} ，。。。， Ë_{Ť}} ），$

对于长度的任何时间间隔 $Ť$ 。在对一些进一步的基本假设 $X_{Ť}$ ， $Ë_{Ť}$ 和它们的关系，可靠的估计 $β$ 通过普通最小二乘（OLS）获得。

与其他社会科学一样，经济数据通常是通过被动观察收集的，不需要借助受控实验。理论上相关的预测器可能需要被实际可用的代理代替。反过来，经济观察可能具有有限的频率、低可变性和很强的相互依赖性。

这些数据的缺点导致了OLS估计的可靠性和模型规范中使用的标准统计技术方面的一些问题。系数估计可能对数据测量误差敏感，使得显著性检验不可靠。多个预测因素的同时变化可能会产生相互作用，很难将其分离成单独的影响。反应中观察到的变化可能与预测因子中观察到的变化相关，但不是由预测因子引起的。

在提供数据的情况下评估模型假设是规范分析的目标。当一个模型的可靠性变得可疑，切实可行的解决方案可能是有限的，但深入分析可以帮助识别任何问题的根源和程度。金宝搏官方网站

这是讨论指定和诊断MLR模型的基本技术的一系列示例中的第一个。本系列还提供了一些一般的战略，以解决在处理经济时间序列数据时出现的具体问题。

经典的假设

经典线性模型(CLM)假设允许OLS产生估计值 $β_{}^{ˆ}$ 与理想的属性[3]。基本的假设是，MLR模型和所选的预测器正确地指定了底层DGP中的线性关系。其他CLM假设包括:

$X_{Ť}$ 满秩（预测变量之间存在共线性）。
$Ë_{Ť}$ 是不相关的 $X_{小号}$ 对所有 $小号$ （严格的预测结果的外生性）。
$Ë_{Ť}$ 不是自相关的( $Ω_{Ť}$ 是对角)。
$Ë_{Ť}$ 是同方差（对角线项 $Ω_{Ť}$ 都是 $σ^{2}$ )。

假设 $ε = β_{}^{ˆ} - β$ 为估计误差。的偏见估计量的 $Ë [ε]$ 和均方误差(MSE) $Ë [ε^{“} ε]$ 。MSE是估计量方差和偏差的平方之和，因此它很好地总结了估计量误差的两个重要来源。它不应该与回归MSE混淆，关于模型残差，它是样本相关的。

所有的估计器都有能力最小化MSE，而MSE不可能小于Cramer-Rao下界[1]。这个界是由最大似然估计量(MLE)渐近实现的(也就是说，随着样本量的增大)。然而，在有限样本中，特别是在经济学中遇到的相对较小的样本中，其他估计器可能在以下方面与MLE竞争相对效率，即已实现的MSE。

根据CLM的假设，高斯 - 马尔科夫定理说，OLS估计 $β_{}^{ˆ}$ 是蓝色：

乙美国东部时间(最小方差)
大号线性(数据的线性函数)
ünbiased ( $Ë [β_{}^{ˆ}] = β$ ）
Ë在系数stimator $β$ 。

BEST加起来线性估计中的最小MSE。线性度是重要的，因为线性向量空间的理论可以应用于所述估计的分析（参见，例如[5])。

如果创新 $Ë_{Ť}$ 通常是分布式的, $β_{}^{ˆ}$ 也将是正态分布。在这种情况下，是可靠的 $Ť$ 和 $F$ 可以对系数估计值进行检验以评估预测因子的重要性，并且可以使用标准公式构造置信区间来描述估计量的方差。正常也允许 $β_{}^{ˆ}$ 实现克拉美 - 罗下限（它成为高效），估计等同于MLE。

无论分配 $Ë_{Ť}$ ，中心极限定理保证该 $β_{}^{ˆ}$ 在大样本中近似正态分布，使得与模型规范相关的标准推理技术渐近有效。但是，如前所述，经济数据的样本通常比较小，不能依靠中心极限定理来得出估计的正态分布。

静态计量经济学模型代表的是专门对当前事件做出反应的系统。静态MLR模型假设谓词构成的列 $X_{Ť}$ 是同一个时间的响应 $ÿ_{Ť}$ 。对于这些模型，CLM假设的评估相对简单。

相比之下，动态模型使用滞后预测器来整合随时间变化的反馈。CLM假设中没有明确排除具有滞后或领先的预测器。事实上,落后外生预测 $X_{Ť - ķ}$ ，不受创新的影响 $Ë_{Ť}$ 不要在自己，影响OLS估计的高斯 - 马尔科夫最优。如果预测包含接近滞后 $X_{Ť - ķ}$ ， $X_{Ť - ķ - 1}$ ， $X_{Ť - ķ - 2}$ , ...，however, as economic models often do, then predictor interdependencies are likely to be introduced, violating the CLM assumption of no collinearity, and producing associated problems for OLS estimation. This issue is discussed in the example时间序列回归II:共线性和估计量方差。

当预测是内生，由响应的滞后值决定 $ÿ_{Ť}$ (自回归模型)，由于预测器和创新之间的递归交互，严格外生性的CLM假设被打破。在这种情况下，OLS估计的其他问题(通常更严重)就出现了。示例中讨论了这个问题时间序列回归八：滞后变量和估算偏差。

违反CLM假设 $Ω_{Ť}$ （非球形创新)在示例中进行了讨论时间序列回归VI：残留诊断。

CLM的假设违反不一定无效OLS估计的结果。重要的是要记住，但是，个别侵权行为的效果会或多或少必然的，这取决于他们是否与其他违法行为相结合。规范分析尝试识别全方位违法行为，评估模型估计的影响，并提出可能的补救建模目标的情况下。

时间序列数据

考虑信贷违约率一个简单的模型MLR。文件Data_CreditDefaults.mat载有关于年1984至2004年四个潜在的预测在投资级公司债券违约的历史数据，以及数据：

加载Data_CreditDefaults

X0 =数据(:,1:4);初始预测集(矩阵)%X0Tbl = DataTable (:, 1:4);初始预测集(表列)%predNames0 =系列(1:4);初始预测集名称T0 =尺寸（X0,1）;％样本量y0 =数据(:,5);％响应数据respName0 =序列{5};％响应数据名

潜在的预测，对今年测Ť,有:

年龄投资级债券发行人三年前首次评级的比例。这些相对较新的发行者，在首次发行的资本(通常是大约3年后)投入使用后，违约的经验概率很高。
BBB与标准普尔信用评级BBB最低投资级别的投资级债券发行人的百分比。这一比例代表了另一种危险因素。
论坛经通货膨胀调整后的公司利润变化的一年预测。该预测是对整体经济健康状况的衡量，包括作为更大商业周期的指标。
SPR公司债券收益率和那些可比国债之间的利差。价差是当前问题的风险的另一项措施。

响应，以年为单位Ť+1是：

IGD投资级公司债违约率

正如描述[2]和[4]中，预测器代理，从其他系列构成。该模型的目标是产生一个动态预测模型，在响应一年的铅（等效，在预测一个滞后一年）。

我们首先分析数据，转换日期为串行日期数字，这样的实用功能recessionplot可以覆盖带出商业周期相关逢低：

％日期转换成串行日期数字：dateNums = datenum([日期的(T0, 2)]);图中潜在预测因子:图;图（dateNums，X0，“线宽”，2）AX = GCA;ax.XTick = dateNums（1：2：结束）;datetick ('X'，'YYYY'，“keepticks”)recessionplot;包含('年')ylabel (的预测水平）图例（predNames0，“位置”，“西北”）标题（'{\ BF潜在预测}'轴）（'紧'）网格（'上'）

％绘制响应：图;持有('上');情节(dateNums y0,数k，“线宽”，2）;图（dateNums，Y0，消除趋势（Y0）“m——”)(“关”);甘氨胆酸ax =;ax.XTick = dateNums（1：2：结束）;datetick ('X'，'YYYY'，“keepticks”)recessionplot;包含('年')ylabel (“应变级别”)传说(respName0“线性趋势”，“位置”，“西北”）标题（“{}\高炉反应”轴）（'紧');网格('上');

我们看到，BBB的规模与其他预测因子略有不同，并且随时间变化。因为响应数据是针对年的Ť+1，违约率峰值实际上遵循经济衰退Ť= 2001。

模型分析

现在预测和响应数据可被组装成一个MLR模型，及OLS估计的 $β_{}^{ˆ}$ 可以用MATLAB反斜杠(\）操作：

%添加拦截到模型:X0I = [酮（T0,1），X0];%的矩阵X0ITbl = [表（酮（T0,1），“VariableNames”,{“常量”}),X0Tbl];％表估计= X0I \ y0

估计=5×1-0.2274 0.0168 0.0043 -0.0149 0.0455

的方法来检查模型线性模型类，它提供诊断信息和许多方便的分析选项。这个函数fitlm（等同于静态方法LinearModel.fit)来估计模型系数 $β_{}^{ˆ}$ 从数据。默认情况下它增加了一个拦截。传入数据以表格阵列的形式，其中变量名，并且在最后一列中的响应值，返回与标准诊断统计拟合模型：

M0 = fitlm（数据表）

M0 =线性回归模型:IGD ~ 1 +年龄+ BBB +公积金+ SPR估计系数:估计SE tStat pValue替_________ _____(拦截)-0.22741 0.098565 -2.3072 0.034747 BBB年龄0.016781 0.0091845 1.8271 0.086402 0.0042728 0.0026757 1.5969 0.12985论坛-0.014888 0.045488 0.033996 1.338 0.1996 0.0038077 -3.91 0.0012473 SPR的观测数量:21日误差自由度:16根均方误差:0.0763平方:0.621,调整平方:0.526 f统计量对常数模型:6.56,p值= 0.00253

关于这个模型的可靠性还有许多问题要问。预测因子是否是响应所有潜在预测因子的良好子集?系数估计准确吗?预测因子和响应之间的关系是线性的吗?模型预测可靠吗?简而言之，模型是否得到了很好的指定，OLS是否很好地将其与数据进行了拟合?

另一种方法线性模型类,方差分析以表格的阵列的形式返回附加拟合统计用于在多个扩展规范分析比较嵌套模型，有用的：

ANOVATable =方差分析(M0)

ANOVATable =5×5表SUMSQ DF MeanSq˚Fp值________ __ _________ ______ _________ AGE 0.019457 1 0.019457 3.3382 0.086402 0.014863 BBB 1 0.014863 2.55 0.12985 CPF 0.089108 1 0.089108 15.288 0.0012473 SPR 0.010435 1 0.010435 1.7903 0.1996错误0.09326 16 0.0058287

摘要

型号规格是经济计量分析的基本任务之一。基本工具是回归，参数估计的最广泛的意义，用于评估范围的候选机型。任何形式的回归，然而，依赖于特定的假设，某些技术，这是几乎从来没有在实践中充分的理由。其结果是，内容翔实，可靠的回归结果很少被用默认设置的标准程序，单个应用程序获得。他们要求，而是规范，分析和respecification的考虑周期，通过实践经验，相关理论和的许多情况，其中认为不佳的统计证据可以混淆合理结论的认识通知。

探索性数据分析是此类分析的关键组成部分。经验计量经济学的基础是，好的模型只有通过与好的数据交互才能产生。如果数据是有限的(计量经济学中经常出现这种情况)，那么分析必须承认由此产生的模糊性，并帮助确定一系列可供考虑的替代模型。没有标准的程序来装配最可靠的模型。好的模型从数据中产生，并能适应新的信息。

本系列的后续示例将考虑线性回归模型，该模型由一组小的潜在预测器构建，并校准为一组非常小的数据。尽管如此，所考虑的技术和MATLAB工具箱函数仍然是典型规范分析的代表。更重要的是，从最初的数据分析，到试探性的模型构建和细化，再到最后的实际预测性能测试，整个流程也是非常典型的。在大多数经验主义的努力中，过程是关键。