主要内容

贝叶斯线性回归

线性回归是一个统计工具,用于:

  • 的线性相关性或影响预测或说明变量在响应变量。

  • 根据未来预测数据预测或预测未来的反应。

多元线性回归(MLR)模型为

y t = x t β + ε t

为次t=1,…,T:

  • yt是观察到的响应。

  • xt是一个1 × (p的观测值的行向量p预测因子。为了适应模型截距,x1t= 1t.

  • β是a (p的列向量,对应于组成列的变量的回归系数xt

  • εt为随机扰动,其均值为0,Cov(ε) =Ω.一般来说,Ω是一个T——- - - - - -T对称的正定矩阵。为简单起见,假设扰动不相关且具有共同方差,即:Ω=σ2T

的价值β表示相应预测因子的预期边际贡献yt.当预测者xj增加一个单位,y预计会增加βj单位,假设其他变量都是固定的。εt真实响应和预期响应之间是否存在随机差异t.

经典与贝叶斯分析

要研究预测因子对响应的线性影响,或构建预测MLR,必须首先估计参数β而且σ2频率论的统计学家使用经典方法进行估计,也就是说,他们将参数视为固定但未知的量。流行的频率估计工具包括最小二乘和最大似然。如果扰动是独立的,同方差的,并且是高斯或<一个href="//www.tatmou.com/kr/help/stats/normal-distribution.html" class="a">正常的,则最小二乘和最大似然得到等价的估计值。推断,如参数估计的置信区间或预测区间,是基于扰动的分布。有关MLR分析的频率论方法的更多信息,请参见<一个href="//www.tatmou.com/kr/help/econ/time-series-regression-i-linear-models.html" class="a">时间序列回归I:线性模型或<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[6]第三章。大多数工具在计量经济学工具箱™是频率主义者。

一个贝叶斯MLR模型的估计和推断方法β而且σ2是随机变量,而不是固定的未知量。一般来说,贝叶斯分析的目标是通过结合来自观察数据的参数信息来更新参数的概率分布。在对数据进行采样之前,您对参数的联合分布有一些信念。在采样之后,您将数据分布所诱导的似然与您的先验信念结合起来,以组成给定数据的参数的联合条件分布。结果分布的特征和功能是估计和推断的基础。

贝叶斯分析的主要成分

贝叶斯分析的主要目标之一是计算,或从样本后验分布(或后).后验是使用(或给定)数据更新的参数的分布,由以下数量组成:

  • 一个似然函数—样例中提供的参数信息。如果随机抽样,则MLR的可能性为

    ( β σ 2 | y x = t = 1 T P ( y t | x t β σ 2

    P ( y t | x t β σ 2 的条件概率密度函数是yt给出了参数和诱导的条件分布εt.通常情况下,xt是一个固定的量。如果扰动是独立的,同方差的,高斯分布的,那么

    ( β σ 2 | y x = t = 1 T ϕ ( y t x t β σ 2

    ϕ(ytxtβ,σ2)为带均值的高斯概率密度xtβ和方差σ2,估价为yt

  • 先验分布(或先知先觉在观察数据之前假设的参数分布。对参数施加先验分布假设比频率论分析更有优势:先验允许您在查看数据之前合并关于模型的知识。你可以通过调整先验方差来控制你对参数知识的置信度。指定高方差意味着您对参数了解甚少,并且您希望更重地衡量数据中关于参数的信息。指定低方差意味着您对参数的知识有很高的信心,并且您希望在分析中解释这些知识。

    在实践中,使用先验是为了方便,而不是遵循研究人员关于参数实际分布的意见。例如,您可以选择先验,以便相应的后验分布在同一分布族中。这些前后对被称为共轭分布。但是,先验的选择可能会影响估计和推断,因此您应该对估计执行敏感性分析。

    先验可以包含参数,称为hyperparameters,它们本身就有概率分布。这样的模型称为层次贝叶斯模型.

    对于MLR,先验分布通常表示为π(β),π(σ2).一个流行的选择是法向-逆-共轭模型,其中π(β|σ2)为多元高斯或<一个href="//www.tatmou.com/kr/help/stats/multivariate-normal-distribution.html" class="a">多元正态分布和π(σ2)为逆伽马分布。

  • 可以包含关节后部的分布β而且σ2使用贝叶斯法则,即

    π ( β σ 2 | y x = π ( β π ( σ 2 ( β σ 2 | y x β σ 2 π ( β π ( σ 2 ( β σ 2 | y x d β d σ 2 π ( β π ( σ 2 ( β σ 2 | y x

    如果β取决于σ2,则其先验值应替换为π(β|σ2).分母是给定预测因子的响应分布,在观察后它成为常数y.因此,后验常被写成与分子成正比。

    后验性就像任何其他随机变量的联合概率分布一样,它包含了合并数据后关于参数的所有已知信息。参数估计和推断主要基于参数关于后验分布的函数积分。

    后验估计与推断

    后验估计和推断涉及到参数与后验函数的积分。常用的MLR参数估计和推断包括:

    • 的期望值β给定的数据是

      β ^ = E ( β | y x = β σ 2 β π ( β σ 2 | y x d β d σ 2

      这个量提供了一个自然的解释,是最小均方误差(MSE)估计器,也就是说,它最小化 E ( β ^ β 2 | y x 对于其他损失,中值、模态或分位数可以是贝叶斯估计量。

    • 最大先验估计(MAP) -使后验分布最大化的参数值。

    • 根据数据,预测的反应 y ^ 预测者的 x ^ 是随机变量后验预测分布

      π ( y ^ | y x x ^ = β σ 2 f ( y ^ | β σ x ^ π ( β σ 2 | y x d β d σ 2

      的概率分布的条件期望值y关于参数的后验分布。

    • 95%置信区间β(或可信区间)-集年代这样P(β∊年代|y,x) =0.95。这个方程会产生无穷多个区间,包括:

      • Equitailed间隔,即区间(l,U)如此P(β<l|y,x) =0.025和P(β>U|y,x) =0.025。

      • 最高后验密度(HPD)区域,它是产生指定概率的最窄的区间。它必然包含最大的后验值。

      与频率置信区间的解释不同,贝叶斯置信区间的解释是,给定数据,概率是随机的β在区间(s)中年代是0.95。这种解释是直观的,这是贝叶斯置信区间相对于频率置信区间的优势。

    • 变量包含的边际后验概率,也称为区域概率,由实施随机搜索变量选择(SSVS)产生,并指示预测变量在贝叶斯线性回归模型中是否不重要或冗余。在科学中,β具有多元双组分高斯混合分布。两个分量的均值都为零,但一个分量的方差大,另一个分量的方差小。无关紧要的预测因素可能接近于零;因此,它们来自方差较小的分量。SSVS样本来自2的空间p+ 1一个模型的排列,每个排列包括或不包括一个系数,具有最高后验密度的模型更常被抽样。区域概率由抽样模型导出。

    • 集成方法取决于产品的功能形式 π ( β π ( σ 2 ( β σ 2 | y x 比如被积函数,h(β,σ2).

      • 如果乘积是已知概率分布的核,那么h(β,σ2)可以分析处理。当你选择先验和后验来形成共轭对时,通常会出现已知的核。在这些情况下,分布的前几个时刻通常是已知的,并且基于它们进行估计。有关计量经济学工具箱中贝叶斯线性回归模型框架提供的可分析的后验分布的详细信息,请参见<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">易于分析处理的后验

      • 否则,你必须使用数值积分技术来计算积分h(β,σ2)关于后验分布。在一定条件下,可以用数值积分来实现蒙特卡罗或马尔科夫链蒙特卡洛(密度)抽样。

        • 要执行蒙特卡罗估计,您从概率分布中绘制许多样本,并对每次绘制应用适当的函数(h(β,σ2)是函数中的一个因子),并对结果取平均值以近似积分。一种流行的蒙特卡罗技术是抽样重要性重抽样<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[6]

        • 当你不知道概率分布到一个常数,或者你知道所有参数的条件分布至少到一个常数时,你就可以实现MCMC。流行的MCMC技术包括吉布斯抽样<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[2],即Metropolis-Hastings算法<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[5],切片抽样<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[9]

        有关计量经济学工具箱中贝叶斯线性回归模型在后验难以处理时的后验估计的详细信息,请参见<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">难分析的后验

      易于分析处理的后验

      计量经济学工具箱中的贝叶斯线性回归框架提供了几个先验模型规范,可产生分析上可处理的共轭边际或条件后验。该表标识了先验模型及其对应的后验模型。当您将先前的模型和数据传递给<一个href="//www.tatmou.com/kr/help/econ/conjugateblm.estimate.html">估计, MATLAB®使用这些公式。当软件构造后验时,它假设响应数据ytt=1,…,T,是来自具有均值的高斯分布的随机样本xtβ和方差σ2

      先验模型对象先知先觉边缘后验条件后验
      conjugateblm

      β | σ 2 N p + 1 ( μ σ 2 V σ 2 G ( 一个 B

      β而且σ2是独立的。

      β | y x t p + 1 ( ( V 1 + X X 1 ( X X β ^ + V 1 μ 2 B 1 + ( y X β ^ ( y X β ^ + ( β ^ μ V + ( X X 1 1 ( β ^ μ 2 一个 + T 2 一个 + T σ 2 | y x G ( 一个 + T 2 B 1 + 1 2 ( y X β ^ ( y X β ^ + 1 2 ( β ^ μ V + ( X X 1 1 ( β ^ μ 1

      β | σ 2 y x N p + 1 ( ( V 1 + X X 1 ( X X β ^ + V 1 μ σ 2 ( V 1 + X X 1 σ 2 | β y x G ( 一个 + T + p + 1 2 B 1 + 1 2 ( y X β ( y X β + 1 2 ( β μ V 1 ( β μ 1
      semiconjugateblm

      β | σ 2 N p + 1 ( μ V σ 2 G ( 一个 B

      β而且σ2是相关的。

      分析棘手的

      β | σ 2 y x N p + 1 ( ( V 1 + σ 2 X X 1 σ 2 ( X X β ^ + V 1 μ ( V 1 + X X 1 σ 2 | β y x G ( 一个 + T 2 B 1 + 1 2 ( y X β ( y X β 1

      diffuseblm

      联合先验pdf是

      f β σ 2 ( β σ 2 1 σ 2

      β | y x t p + 1 ( β ^ ( y X β ^ ( y X β ^ T p 1 ( X X 1 T p 1 σ 2 | y x G ( T p 1 2 1 2 ( y X β ^ ( y X β ^ 1

      β | σ 2 y x N p + 1 ( β ^ σ 2 ( X X 1 σ 2 | β y x G ( T 2 1 2 ( y X β ( y X β 1

      mixconjugateblm

      γ = γ 1 ... γ p + 1 p ( γ j γ j 0 1 j β j | σ 2 γ j = γ j σ V j 1 Z 1 + ( 1 γ j σ V j 2 Z<米n> 2 Z k N ( 0 1 k = 1 2. σ 2 G ( 一个 B

      尽管边缘后验在分析上是可处理的,但MATLAB认为它们难以实现可伸缩性(参见<一个href="//www.tatmou.com/kr/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[1]).

      分析处理如果γj而且γk都是独立的吗j≠k

      γ j | β γ j σ 2 X y 伯努利<米row> ( 一个 j 一个 j + b j j = 1 ... p + 1. j 一个 j = P ( γ j = 1 ϕ ( 0 σ 2 V j 1 j b j = P ( γ j = 0 ϕ ( 0 σ 2 V j 2 β | σ 2 γ X y N p + 1 ( ( V 1 + X X 1 X Y σ 2 ( V 1 + X X 1 σ 2 | β γ X y G ( 一个 + T + p + 1 2 B 1 + 1 2 ( y X β ( y X β + 1 2 β V 1 β 1

      mixsemiconjugateblm

      γ = γ 1 ... γ p + 1 p ( γ j γ j 0 1 j β j | σ 2 γ j = γ j V j 1 Z 1 + ( 1 γ j V j 2 Z<米n> 2 Z k N ( 0 1 k = 1 2. σ 2 G ( 一个 B

      分析棘手的

      分析处理如果γj而且γk都是独立的吗j≠k

      γ j | β γ j σ 2 X y 伯努利<米row> ( 一个 j 一个 j + b j j = 1 ... p + 1. j 一个 j = P ( γ j = 1 ϕ ( 0 V j 1 j b j = P ( γ j = 0 ϕ ( 0 V j 2 β | σ 2 γ X y N p + 1 ( ( V 1 + σ 2 X X 1 X Y ( V 1 + σ 2 X X 1 σ 2 | β γ X y G ( 一个 + T 2 B 1 + 1 2 ( y X β ( y X β 1

      lassoblm

      β j | σ 2 λ 拉普拉斯<米row> ( 0 σ / λ j = 0 .. p σ 2 G ( 一个 B

      系数是先验独立的。

      分析棘手的

      1 ψ j | β j σ 2 λ InvGaussian<米row> ( σ λ / | β j | λ 2 j = 1 ... p + 1. D = 诊断接头<米row> ( ψ 1 ... ψ p + 1 β | σ 2 λ X y ψ N p + 1 ( ( X X + D 1 X y σ 2 ( X X + D 1 σ 2 | β X y ψ G ( 一个 + T + p + 1 2 B 1 + 1 2 ( y X β ( y X β + 1 2 β D β 1

      表中: