时间序列回归我:线性模型

这个示例介绍了多元线性回归模型背后的基本假设。它是第一个在一系列的例子在时间序列回归,所有后续的例子提供了依据。

多元线性模型

时间序列通常所描述的过程多元线性回归(高)模型的形式:

$y_{t} = X_{t} β + e_{t},$

在哪里 $y_{t}$ 是观察到的反应和 $X_{t}$ 包括列的值的可观察到的预测因子。偏回归系数 $β$ 代表个人的边际贡献预测的变化 $y_{t}$ 当所有其他的预测是固定的。

这个词 $e_{t}$ 是一个潮流的预测和观测值之间的差异 $y_{t}$ 。这些差异是由于过程波动的变化 $β$ (变化),测量错误 $X_{t}$ misspecifications)和模型(例如,省略了预测或非线性关系 $X_{t}$ 和 $y_{t}$ )。他们也来自底层的数据生成过程中固有的特性转化(文章),模型试图表示。它通常是假定的 $e_{t}$ 是由一个难以察觉的创新的过程与静止的协方差

$Ω_{T} = C o v ({e_{1}, 。。。, e_{T}}),$

对于任何时间间隔的长度 $T$ 。在进一步的一些基本假设 $X_{t}$ , $e_{t}$ 和他们的关系,可靠的估计 $β$ 通过普通最小二乘法(OLS)。

和其他社会科学一样,经济数据通常是被动收集的观察,如果没有控制实验。理论上相关的预测可能需要取而代之的是实际可用的代理。反过来,经济观察可能有限频率,低变异性,强烈的相互依赖关系。

这些数据的缺点导致许多问题与OLS估计的可靠性和标准统计技术应用于模型规范。测量误差系数估计可能是敏感数据,使意义测试不可靠。同时多个预测可能产生的变化很难分离成单个的交互影响。响应中观察到的变化可能与,但不是引起的,观察变化的预测。

评估模型的上下文中假设可用数据的目标是规范分析。当一个模型的可靠性变得可疑,切实可行的解决方案可能是有限的,但深入分析可以帮助识别源和程度的任何问题。金宝搏官方网站

这是第一个在一系列的例子,讨论基本技术用于指定和高诊断模型。系列还提供了一些策略解决具体问题出现在处理经济时间序列数据。

经典的假设

经典线性模型(CLM)假设允许OLS估计 $β_{}^{ˆ}$ 与理想的属性[3]。高模型的基本假设是,选择的预测因素,正确地指定一个线性关系在底层的文章。其他CLM的假设包括:

$X_{t}$ 是满秩(没有之间的共线性预测)。
$e_{t}$ 是不相关的 $X_{年代}$ 对所有 $年代$ (严格exogeneity的预测)。
$e_{t}$ 不是autocorrelated ( $Ω_{T}$ 是对角)。
$e_{t}$ 是同方差的(对角线项 $Ω_{T}$ 都是 $σ^{2}$ )。

假设 $ϵ = β_{}^{ˆ} - - - - - - β$ 估计误差。的偏见估计量的 $E (ϵ]$ 和均方误差(MSE) $E (ϵ^{'} ϵ]$ 。MSE估计量方差之和,偏差的平方,所以它巧妙地总结了两个重要的不准确的估计量的来源。它不应被混淆与回归MSE,关于模型残差,这是依赖于样本的。

估计都是最小化均方误差的能力有限,不能小于Cramer-Rao下界[1]。这个绑定实现渐近(即随着样本容量的增大)的极大似然估计量(标定)。然而,在有限样本,特别是在相对较小的样本中遇到经济,其他估计可能与大中型企业的竞争相对效率,也就是说,在取得了MSE。

CLM的假设下,高斯-马尔可夫定理说OLS估计量 $β_{}^{ˆ}$ 是蓝色的:

B美国东部时间(最小方差)
linear(数据)的线性函数
Unbiased ( $E (β_{}^{ˆ}] = β$ )
Estimator系数 $β$ 。

最好加起来之间的最小均方误差线性估计。线性度是很重要的,因为线性向量空间理论可以应用于估计量的分析(见,例如[5])。

如果创新 $e_{t}$ 通常是分布式的, $β_{}^{ˆ}$ 也将正态分布。在这种情况下,可靠 $t$ 和 $F$ 测试可以对系数进行估计,评估预测意义,和置信区间可以使用标准构造描述估计量方差公式。正常也允许 $β_{}^{ˆ}$ 实现Cramer-Rao下界(就越大非常高效。),估计与大中型企业相同。

不管的分布 $e_{t}$ ,中心极限定理保证 $β_{}^{ˆ}$ 将在大样本近似正态分布,因此,模型规范相关标准的推理技术成为有效的渐近。然而,如前所述,经济数据往往相对较小,样本和中心极限定理不能依赖产生正态分布的估计。

静态计量经济学模型表示系统,专门应对时事。静态高模型假设预测形成的列 $X_{t}$ 同生的反应 $y_{t}$ 。评价CLM的假设是这些模型相对简单。

相比之下,动态随着时间的推移模型使用滞后预测将反馈。没有在CLM假设明确排除了预测与滞后或线索。事实上,落后外生预测 $x_{t - - - - - - k}$ 、自由与创新的交互 $e_{t}$ ,本身不影响OLS估计的高斯-马尔可夫最优。如果预测因子包括直接滞后 $x_{t - - - - - - k}$ , $x_{t - - - - - - k - - - - - - 1}$ , $x_{t - - - - - - k - - - - - - 2}$ ,……,however, as economic models often do, then predictor interdependencies are likely to be introduced, violating the CLM assumption of no collinearity, and producing associated problems for OLS estimation. This issue is discussed in the example时间序列回归二世:共线性和估计方差。

当预测内生,由响应的滞后值决定的 $y_{t}$ (自回归模型),CLM的假设严格exogeneity违反了通过递归预测和创新之间的相互作用。在这种情况下,往往更严重,OLS估计出现的问题。这个问题是讨论的例子时间序列回归八世:滞后变量和估计偏差。

违反CLM的假设 $Ω_{T}$ (nonspherical创新在这个例子中讨论)时间序列回归VI:残留的诊断。

违反CLM假设不一定无效OLS估计的结果。然而,重要的是要记住,个人违规将或多或少的影响间接,取决于它们是否结合其他违规行为。规范分析试图识别的各种违规行为,评估对模型估计的影响,并提出可能的补救措施在建模环境中目标。

时间序列数据

考虑一个简单的高信贷违约率的模型。该文件Data_CreditDefaults.mat包含历史数据,投资级企业债券违约,以及数据在四个潜在预测1984年至2004年:

负载Data_CreditDefaults

X0 =数据(:,1:4);%初始指标集(矩阵)X0Tbl = DataTable (:, 1:4);%初始指标集(表格数组)predNames0 =系列(1:4);%初始预测集的名字T0 =大小(X0, 1);%样本大小y0 =数据(:,5);%响应数据respName0 ={5}系列;%响应数据名称

潜在的预测因素,测量t,有:

年龄比例的投资级债券发行人第一额定3年前。这些相对较新的发行者有很高的经验违约概率从最初的问题是消耗资本后,通常大约3年后。
BBB比例的投资级债券发行人标准普尔信用评级为BBB,最低投资级。这个比例是另一个风险因素。
论坛提前一年预测的企业利润的变化,根据通货膨胀进行调整。预测是衡量整体经济健康,包括作为更大的商业周期的指标。
SPR企业债券收益率差和类似的政府债券。传播是另一个衡量当前的风险问题。

反应,测量t+ 1,是:

IGD投资级公司债券的违约率

中描述的[2]和[4]预测是代理,由其他系列。建模的目标是产生一个动态预测模型,与一年中的铅的响应(等价于一年的滞后指标)。

我们首先检查数据,将日期转换为一个datetime向量效用函数recessionplot可以覆盖乐队展示相关蘸商业周期:

%将日期转换成datetime向量:dt = datetime (string(日期),“格式”,“yyyy”);%的阴谋潜在的预测:图;情节(dt, X0,“线宽”2)recessionplot;包含(“年”)ylabel (的预测水平)传说(predNames0“位置”,“西北”)标题(“{\ bf潜力预测}”)轴(“紧”)网格(“上”)

图包含一个坐标轴对象。坐标轴对象与标题空白P o t e n t我l空白P r e d i c t o r s,包含一年,ylabel预测水平包含6行类型的对象,补丁。这些对象代表年龄,BBB,论坛,SPR。

%情节反应:图;持有(“上”);情节(dt, y0,“k”,“线宽”2);情节(dt, y0-detrend (y0),“m——”)(“关闭”);recessionplot;包含(“年”)ylabel (“响应级别”)传说(respName0“线性趋势”,“位置”,“西北”)标题(“{}\高炉反应”)轴(“紧”);网格(“上”);

图包含一个坐标轴对象。坐标轴对象与标题空白R e s p o n s e,包含一年,ylabel响应级别包含4线类型的对象,补丁。这些对象代表IGD,线性趋势。

我们可以看到,BBB比另一个稍微不同的规模预测,随着时间的推移和趋势。自响应数据t+ 1,违约率的峰值实际上遵循的衰退t= 2001。

模型分析

预测和响应数据现在可以组装成一个高模型,和OLS估计的 $β_{}^{ˆ}$ 可以找到与MATLAB反斜杠(\)操作符:

%添加拦截模型:X0I = [(T0, 1), X0];%的矩阵X0ITbl =[表的(T0, 1),“VariableNames”,{“常量”}),X0Tbl];%的表估计= X0I \ y0

估计=5×1-0.2274 0.0168 0.0043 -0.0149 0.0455

另外,模型可以检查LinearModel对象的功能,它提供诊断信息和许多方便的选项进行分析。这个函数fitlm用于估计模型系数 $β_{}^{ˆ}$ 从数据。它增加了一个默认拦截。传入的数据以表格形式的数组,变量名,最后一列的响应值,返回一个拟合模型与标准诊断统计:

M0 = fitlm(数据表)

M0 =线性回归模型:IGD ~ 1 +年龄+ BBB +公积金+ SPR估计系数:估计SE tStat pValue替_________ _____(拦截)-0.22741 0.098565 -2.3072 0.034747 BBB年龄0.016781 0.0091845 1.8271 0.086402 0.0042728 0.0026757 1.5969 0.12985论坛-0.014888 0.045488 0.033996 1.338 0.1996 0.0038077 -3.91 0.0012473 SPR的观测数量:21日误差自由度:16根均方误差:0.0763平方:0.621,调整平方:0.526 f统计量与常数模型:6.56,p = 0.00253

仍有许多问题要问关于这个模型的可靠性。是所有潜在的预测一个子集预测的反应?系数估计准确吗?是预测和响应之间的关系,实际上,线性吗?模型预测可靠吗?简而言之,是模型良好的和OLS做好拟合的数据吗?

另一个LinearModel目标函数,方差分析,返回额外的健康统计数据以表格形式的数组,用于比较更扩展规范中嵌套模型分析:

ANOVATable =方差分析(M0)

ANOVATable =5×5表SumSq DF MeanSq F pValue ________ __ _____ _____ _____岁0.019457 - 1 1 0.014863 2.55 0.12985 0.014863 0.019457 3.3382 0.086402 BBB CPF 0.089108 - 1 1 0.010435 1.7903 0.1996 0.010435 0.089108 15.288 0.0012473 SPR错误0.09326 16 0.0058287

总结

模型规范是计量经济学分析的基本任务之一。的基本工具是回归,在最广泛的意义上的参数估计,用来评估一系列候选模型。任何形式的回归,然而,依赖于特定的假设,和特定的技术,在实践中几乎从未完全合理的。因此,获得的信息,可靠的回归结果很少单个应用程序默认设置的标准程序。相反,他们需要的考虑循环规范,分析,和respecification,根据实践经验,相关理论,和一个认识的情况下,不考虑统计证据可以让明智的结论。

探索性数据分析这种分析是一个关键组成部分。实证计量经济学的基础是好的模型出现的只有通过与良好的数据交互。如果数据是有限的,通常就是这样在计量经济学,分析必须承认结果模棱两可,帮助识别一系列的替代模型需要考虑。没有标准程序组装最可靠的模型。好的模型的数据,是适应新的信息。

在本系列的后续实例考虑线性回归模型,由一组小的潜在的预测和校准很小的一组数据。不过,技术和MATLAB工具箱函数,代表典型的规范分析。工作流,更重要的是,从最初的数据分析,通过初步模型建立和细化,最后测试在实际领域的预测性能,也很典型。在大多数经验努力,这个过程是重点。

引用

[1]克莱默,H。数学统计的方法。普林斯顿,纽约:普林斯顿大学出版社,1946年。

[2]Helwege, J。,和P. Kleiman. "Understanding Aggregate Default Rates of High Yield Bonds." Federal Reserve Bank of New York当前的经济和金融问题。2卷,6号,1996年,页1 - 6。

[3]肯尼迪,P。计量经济学指南。6日。纽约:约翰威利& Sons, 2008。

[4]吕弗勒,G。,和P. N. Posch.信用风险建模使用Excel VBA。西萨塞克斯郡,英格兰:威利金融,2007。

[5]斯特朗,G。线性代数及其应用。四。太平洋格罗夫,CA:布鲁克斯科尔,2005。