时间序列回归I：线性模型

打开生活的脚本

这个例子介绍了多元线性回归模型背后的基本假设。它是时间序列回归的一系列例子中的第一个，为以后所有的例子提供了基础。

多元线性模型

时间序列过程通常用多元线性回归(MLR)模型的形式:

$y_{t} ＝ X_{t} β + e_{t} ，$

在哪里 $y_{t}$ 是观察到的反应和 $X_{t}$ 包括可观察到预测器的同期值的列。部分回归系数 $β$ 表示单个预测因子对中值变化的边际贡献 $y_{t}$ 当所有其他预测器都保持不变时。

期限 $e_{t}$ 的预测值和观测值之间的差异是否具有全面性 $y_{t}$ ．这些差异是由于过程波动（变化 $β$ )、测量误差(变更 $X_{t}$ )和模型的不规范(例如，忽略了预测器或之间的非线性关系 $X_{t}$ 和 $y_{t}$ )。它们也来自于基础数据生成过程(DGP)的内在随机性，这也是模型试图表示的。人们通常认为 $e_{t}$ 是由一个不可观察的东西产生的吗创新的过程与静止的协方差

${ω.}_{T} ＝ C o v （｛ e_{1} ，．．．， e_{T} ｝），$

对于长度的任何时间间隔 $T$ ．关于一些进一步的基本假设 $X_{t}$ ， $e_{t}$ ，它们的关系，可靠的估计 $β$ 由普通最小二乘(OLS)得到。

与其他社会科学一样，经济数据通常由被动观察收集，而无需受控实验。理论上相关的预测器可能需要由实际可用的代理替换。反过来，经济意见可能具有有限的频率，低可变性和强大的相互依赖性。

这些数据的缺陷导致了OLS估计的可靠性和用于模型说明的标准统计技术方面的一些问题。系数估计可能对数据测量误差敏感，使显著性检验不可靠。多个预测因子的同时变化可能会产生相互作用，而这种相互作用很难区分为单独的影响。观察到的反应变化可能与预测因子的变化相关，但不是由预测因子的变化引起的。

在可用数据的上下文中评估模型假设是规范分析的目标。当模型的可靠性变得可疑时，实际解决方案可能受到限制，但彻底的分析可以有助于识别任何问题的来源和程度。金宝搏官方网站

这是讨论指定和诊断MLR模型的基本技术的一系列示例中的第一个。该系列还提供了一些通用策略，以解决在处理经济时间序列数据时出现的具体问题。

经典的假设

经典线性模型(CLM)假设允许OLS生成估计 $β_{}^{ˆ}$ 与理想的属性［3］．基本假设是，MLR模型和所选择的预测器正确地指定了潜在DGP的线性关系。其他CLM假设包括:

$X_{t}$ 为全秩(各预测因子之间无共线性)。
$e_{t}$ 是不相关的 $X_{年代}$ 对所有 $年代$ (预测因素的严格外生性)。
$e_{t}$ 不是自相关的( ${ω.}_{T}$ 是对角)。
$e_{t}$ 同方差(对角线项在 ${ω.}_{T}$ 都是 ${σ.}^{2}$ )。

假设 $ε. ＝ β_{}^{ˆ} - β$ 为估计误差。的偏见估计量的 $E ［ ε. ］$ 和卑鄙的错误(MSE) $E ［ {ε.}^{”} ε. ］$ ．MSE是估计量方差和偏差平方的和，因此它整洁地总结了估计量不准确的两个重要来源。它不应与回归MSE相混淆，MSE涉及模型残差，它是依赖于样本的。

所有的估计器在最小化MSE的能力上都是有限的，MSE永远不能小于Cramer-Rao下界[1]．这个界是通过极大似然估计(MLE)渐近地实现的(即随着样本容量的增大)。然而，在有限样本中，特别是在经济学中遇到的相对较小的样本中，其他估计量可能在相对效率，即所达到的MSE。

在CLM假设下，Gauss-Markov定理说，OLS估计 $β_{}^{ˆ}$ 是蓝色的：

B美国东部时间(最小方差)
l线性(数据的线性函数)
Unbiased ( $E ［ β_{}^{ˆ} ］＝ β$ ）
E系数的刺激子 $β$ ．

BEST加起来等于线性估计中最小的MSE。线性是重要的，因为线性向量空间的理论可以应用于估计量的分析(见，例如［5］)。

如果创新 $e_{t}$ 通常是分布式的, $β_{}^{ˆ}$ 也是正态分布。在这种情况下，是可靠的 $t$ 和 $F$ 可以对系数估计进行检验，以评估预测器的显著性，并可以使用标准公式构造置信区间来描述估计器的方差。正常也允许 $β_{}^{ˆ}$ 实现Cramér-Rao的下限(它变成高效的)，其估计值与MLE相同。

不管分布如何 $e_{t}$ 中心极限定理保证了这一点 $β_{}^{ˆ}$ 将在大样本中近似正态分布，因此与模型规范相关的标准推理技术渐近有效。然而，如前所述，经济数据的样本通常相对较小，不能依靠中心极限定理得出正态分布的估计。

静态计量经济模型代表了只对当前事件作出反应的系统。静态MLR模型假设构成列的预测器 $X_{t}$ 同时存在反应 $y_{t}$ ．对于这些模型来说，CLM假设的评估相对简单。

相比之下,动态模型使用滞后预测来整合随时间变化的反馈。CLM假设中没有明确排除具有滞后或超前的预测因子。事实上,落后外生预测 $x_{t - k}$ ，不受创新的影响 $e_{t}$ 在本身，不要影响OLS估计的高斯 - 马尔可夫的最优性。如果预测器包括邻近滞后 $x_{t - k}$ ， $x_{t - k - 1}$ ， $x_{t - k - 2}$ ， ...，however, as economic models often do, then predictor interdependencies are likely to be introduced, violating the CLM assumption of no collinearity, and producing associated problems for OLS estimation. This issue is discussed in the example时间序列回归II:共线性和估计量方差．

当预测器是时内生，由响应的滞后值决定 $y_{t}$ (自回归模型)，通过预测因子和创新之间的递归交互，违反了严格外部性的CLM假设。在这种情况下，会出现其他的、通常更为严重的OLS估计问题。这个问题在示例中进行了讨论时间序列回归VIII:滞后变量和估计偏差．

违反CLM假设 ${ω.}_{T}$ （非球创新)在例子中进行了讨论时间序列回归VI：剩余诊断．

违反CLM假设并不一定使OLS估计结果无效。然而，重要的是要记住，个别违规行为的影响将或多或少地产生后果，这取决于它们是否与其他违规行为相结合。规范分析试图识别所有的违规，评估对模型评估的影响，并在建模目标的上下文中提出可能的补救措施。

时间序列数据

考虑一个简单的信用违约率MLR模型。文件data_creditdefaults.mat包含投资级公司债券违约的历史数据，以及1984年至2004年四个潜在预测因素的数据:

负载Data_CreditDefaults

X0 =数据(:,1:4);初始预测器集(矩阵)X0Tbl = DataTable (:, 1:4);%初始预测器集(表格数组)predNames0 =系列(1:4);%初始预测器集名称t0 =尺寸（x0,1）;%样本大小y0 =数据(:,5);％响应数据respName0 ={5}系列;%响应数据名称

潜在的预测因子，衡量年份t,有:

年龄投资级债券发行人在3年前首次获得评级的百分比。这些相对较新的发行人在首次发行的资本支出后(通常是在大约3年后)具有较高的违约经验概率。
BBB投资级债券发行人的百分比具有标准兼规范的BBB信用评级，投资等级最低。该百分比代表另一个危险因素。
论坛根据通胀因素调整后的公司利润变化预测。该预测是衡量整体经济健康状况的指标，被视为更大商业周期的指标。
SPR公司债券收益率与可比政府债券之间的蔓延。传播是当前问题风险的另一种衡量标准。

这是多年来的反应t+ 1,是:

IGD投资级公司债券违约率

中描述的［2］和［4］在美国，预测指标是由其他系列构建的代理指标。建模的目标是生成一个动态预测模型，在响应中提前一年(等效地，预测器滞后一年)。

我们首先检查数据，将日期转换为datetime向量，以便实用程序函数Reformplot.可以覆盖显示商业周期相关低谷的波段:

将日期转换为日期时间矢量:dt = datetime（字符串（日期），“格式”，'yyyy'）;% Plot潜在预测因子:图;情节(dt, X0,“线宽”，2）Reformplot;包含(“年”) ylabel (的预测水平）传奇（Prednames0，“位置”，“西北”） 标题（'{\ bf潜在预测器}')轴('紧的'） 网格（“上”）

图中包含一个轴对象。标题空白对象和空白对象的轴线对象包含line、patch类型的6个对象。这些对象代表AGE, BBB, CPF, SPR。

%情节反应:图;持有(“上”）;绘图（DT，Y0，'k'，“线宽”2);情节(dt, y0-detrend (y0),“m——”) ('离开'）;recessionplot;包含(“年”) ylabel (“响应级别”)传说(respName0'线性趋势'，“位置”，“西北”） 标题（“{}\高炉反应”)轴('紧的'）;网格(“上”）;

图中包含一个轴对象。标题空白的轴对象包含类型为line、patch的4个对象。这些对象代表了IGD(线性趋势)。

我们可以看到,BBB与其他预测指标的规模略有不同，并且随着时间的推移呈趋势。因为响应数据是年度的t+ 1，默认率的峰值实际上遵循了经济衰退t= 2001。

模型分析

现在可以将预测器和响应数据组装成MLR模型，以及OLS估计 $β_{}^{ˆ}$ 使用MATLAB反斜杠(＼)操作符:

将截距添加到模型:X0I = [(T0, 1), X0];%的矩阵X0ITbl =[表的(T0, 1),“VariableNames”, {'const'}), X0Tbl];％ 桌子估计= X0I \ y0

估计=5×1-0.2274 0.0168 0.0043 -0.0149 0.0455

另外，也可以使用linearmodel.对象函数，它提供诊断信息和许多方便的分析选项。这个函数fitlm用来估计 $β_{}^{ˆ}$ 来自数据。它默认添加截距。通过标签阵列的形式传递数据，具有变量名称和最后一列中的响应值，返回一个拟合模型，标准诊断统计数据：

M0 = fitlm(数据表)

M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPREstimate SE tStat pValue _________ _________ _______ _________ (Intercept) -0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21，误差自由度:16均方根误差:0.0763 R-squared: 0.621, Adjusted R-squared: 0.526 F-statistic vs. constant model: 6.56, p-value = 0.00253

关于这个模型的可靠性还有许多问题要问。预测器是否是所有潜在预测器的一个很好的子集?系数估计准确吗?预测因素和反应之间的关系真的是线性的吗?模型预测可靠吗?简而言之，模型是否被很好地指定，OLS是否很好地将其与数据相吻合?

另一个linearmodel.目标函数,方差分析，以表格阵列的形式返回额外的拟合统计信息，可用于将嵌套模型与更扩展的规范分析进行比较：

ANOVATable =方差分析(M0)

ANOVATable =5×5表SUMSQ DF PECALUE ____________________ _____________________________ 0.019457 3.3382 0.014863 2.55 0.12983 2.55 0.08985 4.08985 0.011273 SPR 0.011243 SPR 0.012473 SPR 0.0112435 0.011273 SPR 0.0112435 0.012473 SPR 0.011985 0.011273 SPR 0.012473 SPR 0.011985 0.012985 0.012473 0.011273 0.0435 0.011208 0.012473 0.012985 0. 0.08908

概括

模型规范是计量分析的基本任务之一。最基本的工具是回归，广义上的参数估计，用于评估一系列候选模型。然而，任何形式的回归都依赖于某些假设和某些技术，而这些在实践中几乎从未得到充分证明。因此，使用带有默认设置的标准过程的单一应用程序很难获得信息丰富、可靠的回归结果。相反，它们需要一个经过深思熟虑的规范、分析和再规范的循环，由实践经验、相关理论和对许多情况的认识——在这些情况下，考虑不周的统计证据可能会混淆合理的结论。

探索性数据分析是此类分析的关键组成部分。实证计量经济学的基础是，好的模型只有通过与好的数据的相互作用才能产生。如果数据有限(这在计量经济学中经常发生)，分析必须承认由此产生的歧义，并帮助确定一系列可供考虑的替代模型。装配最可靠的型号没有标准的程序。好的模型从数据中产生，并能适应新的信息。

本系列中的后续示例考虑了线性回归模型，这些模型由一小组潜在预测器构建，并校准为一小组数据。然而，所考虑的技术和MATLAB工具箱函数是典型规范分析的代表。更重要的是，从最初的数据分析，到试探性的模型建立和完善，最后到在实际舞台上的预测性能测试的工作流程也是相当典型的。在大多数经验主义的努力中，过程是关键。