主要内容

实现贝叶斯线性回归

计量经济学工具箱™包括一个自包含的框架,允许您实现贝叶斯线性回归。该框架包含两组回归系数先验模型β还有扰动方差σ2

  • 标准贝叶斯线性回归先验模型-这组中的五个先验模型对象范围从简单的共轭正态-逆-先验模型到由先验分布或自定义函数指定的灵活先验模型。尽管标准先验模型可以用于多种目的,但它们最适合用于后验估计、模拟(来自联合或对于大多数模型,条件后验)以及从后验预测分布进行预测。

  • 预测变量选择的贝叶斯先验模型——该组中的模型可以执行贝叶斯套索回归或随机搜索变量选择(SSVS)。它们最适合用于后验估计,在此期间发生预测器选择算法。由此产生的后验模型由吉布斯采样器(经验模型对象)的绘制表示,估计摘要包含来自预测器选择算法的结果。估计过程不会为您去除无关紧要或冗余的变量,但一个经过良好调优的模型的系数接近于零。因此,与标准模型一样,您可以从后验分布模拟绘制或从后验预测分布进行预测,而无需删除任何变量。

估计后验分布的特征,然后根据新的预测器数据预测响应的一般工作流程是:

  1. 使用bayeslm创建一个表示您对分布的假设的先验模型对象或一个适合于预测器选择的先验模型对象。

  2. 将先前的模型对象以及预测器和响应数据传递给估计函数。默认情况下,估计返回表示后验分布的模型对象。

  3. 将表示后验分布的模型对象传递给预测

有关标准贝叶斯线性回归工作流程的详细信息,请参见标准贝叶斯线性回归模型工作流程,关于贝叶斯预测器选择,请参见贝叶斯预测器选择的工作流

标准贝叶斯线性回归模型工作流程

下面的过程描述了估计后验分布特征的工作流程,然后预测给定预测器数据的响应。

  1. 选择()的联合先验分布βσ2).然后,使用bayeslm,创建贝叶斯线性回归模型对象,完全指定您对联合先验分布的信念。该表包含可用的先前模型对象。

    模型对象 联合优先分配(βσ2 何时创建
    conjugateblm
    • πβ|σ2)为带均值的高斯分布μ和协方差σ2V

    • πσ2)是具有形状的逆gamma一个和规模B

    当以下所有条件都为真时,创建此模型对象:

    • 你很有信心这些参数有相应的关节先验β取决于σ2

    • 你需要结合你的先验知识先验均值和协方差β形状和规模σ2

    • 你需要边缘后验和条件后验的分析形式,这两种类型的后验都是正态-逆-共轭分布。

    semiconjugateblm
    • πβ)为带均值的高斯分布μ和协方差V

    • πσ2)是具有形状的逆gamma一个和规模B

    • β而且σ2是独立的。

    当以下所有条件都为真时,创建此模型对象:

    • 你很有信心这些参数有相应的关节先验β而且σ2是独立的。

    • 你需要结合你的先验知识先验均值和协方差β形状和规模σ2

    • 你需要条件后验的解析形式,也就是正态-逆-共轭条件分布。

    diffuseblm π β σ 2 1 σ 2

    当以下所有条件都为真时,创建此模型对象:

    • 你希望后验结果更多地受到数据中信息的影响而不是先验。

    • 联合先验分布与σ2杰弗里没有事先提供信息[2]).

    • 你需要边缘后验和条件后验的解析形式,它们是两种类型的正态-逆-共轭分布。

    customblm 自定义函数的函数句柄,用于计算联合先验分布的日志。 当您希望指定联合先验分布的日志时,请创建此模型对象。该规范允许最大限度的灵活性。

  2. 给定数据,估计后验分布的特征。在此步骤中使用的函数取决于您的分析目标。

    函数 目标
    估计
    • 得到一个后验模型对象进行预测。后验模型对象包括:

      • 边际后验的均值和协方差矩阵的估计πβ|yx的均值和方差πσ2|yx).

      • 边缘后验及其参数值。解析解可用金宝搏官方网站conjugateblm而且diffuseblm之前的模型。对于之前的所有模型,估计必须采用蒙特卡罗抽样。

      • 95%相等,可信区间。对于非分析后验,95%相等的可信区间是保留蒙特卡罗样本的0.025分位数和0.975分位数。

    • 估计条件分布的均值和协方差πβ|σ2yx),即用实现线性回归σ2保持固定。

    • 根据新的数据更新现有的后验分布。

    模拟
    • 与关节后部相关的参数函数的期望值近似πβσ2|yx).即,绘制多个样本(βσ2),对每一张图应用一个函数,然后计算转换后的图的平均值。

    • 从条件后验分布中抽取πβ|σ2yx),πσ2|βyx).这种选择对于运行马尔可夫链蒙特卡罗(MCMC)采样器(如吉布斯采样器)很方便。

    如果您有一个自定义先验模型(customblm对象),然后在调用时选择马尔科夫链蒙特卡罗(MCMC)采样器估计模拟.该表包含支持的MCMC采样器列表。金宝app选择采样器后,首先尝试默认的调优参数值。

    密度取样器 指定使用 描述
    汉密尔顿蒙特卡洛(HMC) “取样器”,“hmc”

    因为HMC采样器会自我调整,产生的样本混合得很好,并且更快地收敛到固定分布,所以请先尝试这个采样器。

    为了提高采样速度,为所有或部分参数提供日志PDF的梯度。

    随机漫步 “取样器”,“大都市”

    如果样本量相当大,且先验不支配似然,则尝试此采样器。

    金宝app支持的提案分布是多元正态分布和多元分布t分布。

    调优参数包括分布、比例矩阵和自由度。

    “取样器”,“片”(默认) 要实现充分的混合和收敛,请仔细调整典型的采样间隔宽度。值取决于应用程序。

    在使用MCMC采样器估计非分析后验后验后,检查后验或条件后验图是否充分混合。详情请参见后验估计与模拟诊断

    如果样品的质量不令人满意,则通过使用创建一个采样器选项结构sampleroptions,它允许您指定适合采样器的调优参数值。例如,要指定使用多元变量的随机游走Metropolis采样器t提案分布具有5个自由度,进入:

    选项= sampleroptions(的取样器“大都市”“分布”“测试”...“DegreeOfFreedom”5)
    创建采样器选项结构后,在调用时指定它估计模拟通过使用“选项”名称-值对参数。

  3. 使用新的预测器数据预测反应预测.的预测函数从后验预测分布构造预测。可用于分析后验预测分布conjugateblm而且diffuseblm之前的模型。对于之前的所有模型,预测采用蒙特卡罗抽样法。对于估计和模拟,您可以选择MCMC采样器customblm模型。如果预测使用MCMC取样器时,应检查后验或条件后验是否充分混合。

贝叶斯预测器选择的工作流

下面的过程描述了为线性回归模型执行贝叶斯预测器选择的工作流程,然后预测给定预测器数据的响应。

  1. 计量经济学工具箱支持两个贝叶斯预测器选择算金宝app法:贝叶斯套索回归和SSVS。选择一个预测器选择算法,它意味着(的联合先验分布)βσ2).然后,使用bayeslm,创建执行所选预测器选择算法的贝叶斯线性回归先验模型对象,并可选地指定调优参数值。该表包含了用于预测器选择的可用先验模型对象。有关先前分发的形式的详细信息,请参见后验估计与推断

    模型对象 预测器选择算法 调优参数 何时创建
    mixconjugateblm 科学价值[1]
    • 高斯混合方差,由“V”名称-值对参数。指定一个两列正矩阵。

    • 第一列包含变量包含组件的方差。

      • 指定相对较大的值。

      • 数值表示系数离0越远,概率越大。

    • 第二列包含变量排除组件的方差。

      • 指定相对较小的值。

      • 值将更高的概率归因于接近0的系数。

    • 的先验方差β是一个函数σ2

    • 你想要一个变量被包含在模型中的概率的后验估计。

    mixsemiconjugateblm 科学价值 一样mixconjugateblm

    • β而且σ2都是独立的,先验的。

    • 你想要一个变量被包含在模型中的概率的后验估计。

    lassoblm 贝叶斯套索回归[3]

    • λ,由“λ”名称-值对参数。你可以提供一个正的标量或向量。

    • 的先验值越大,正则性越强β密度在0附近。

    • 如果预测变量在数量级上存在差异,则提供收缩向量,其中元素对应于系数。

    你想强迫不重要和冗余的预测变量具有后验模式为零的系数,并且在该模式周围有相当紧密的95%后验可信区间。

  2. 因为预测器选择算法对预测器变量的不同尺度(特别是贝叶斯套索回归)很敏感,所以通过将数据传递给箱线图,或估计它们的均值和标准差的意思是而且性病,分别。

  3. 对于SSVS先验模型,用图绘制系数的先验分布情节.这些图让你了解两个高斯分量的密度是如何平衡的。您可以使用点表示法来调整系数的方差。例如,将1000和0.1的先验方差分别归因于系数的变量包含分量和变量排除分量j,输入:

    PriorMdl。V (j,:) = [1000 0.1];
    有关指定的详细信息V,请参阅[1]

    对于套索先验模型,确定a正则化路径,即为的一系列值λ在后验估计期间进行迭代。值取决于数据。

    • 如果预测变量具有相似的尺度,则指定一个左边界,将大多数变量强制进入模型(即几乎没有惩罚属性),指定一个右边界,将几乎所有系数强制为0,并在边界之间指定足够的值以充分搜索空间。默认情况下,软件属性为缩量0.01到截距1对所有系数。

    • 如果预测变量的尺度存在数量级上的差异,那么您可以重新缩放或标准化数据。然而,这些行为使得解释系数变得困难。相反,应该指定正则化路径并使用它来创建重复行的矩阵。对于那些尺度或大或小的变量,将相应的行乘以适当的数量级,以放大小系数的惩罚,或减少大系数的惩罚。

      例如,假设一个回归模型有三个预测因子。前两个预测器的规模相似,但第三个预测器的规模大3个数量级。假设100个元素的正则化路径在1 × 100向量中λ.要创建收缩值的矩阵,输入以下代码:

      P = 3%预测因子的数量Numcoeffs = p + 1;系数、截距和预测因子的百分比LambdaMat = repmat(Lambda,4,1);LambdaMat(4,:) = 1e3*LambdaMat(4,:);

      有关指定的更多信息λ,请参阅[3]

  4. 在一个循环,将预测器和响应数据传递给估计估计每个调优参数值的后验分布的特征。对于每次迭代,将后验模型对象和估计汇总表存储在单元格数组中。估计使用吉布斯采样器从完整条件中依次采样(见易于分析处理的后验).您可以使用可用的选项更改吉布斯采样器的各个方面,例如细化因子。

    后验模型(empiricalblm模型对象)存储从完整条件提取的数据。

    估计汇总表是MATLAB®表格包括:

    • 估计的平均值(的意思是)和协方差矩阵(协方差)的边缘后πβ|yx的均值和方差πσ2|yx).

    • 95%相等可信区间(CI95),分别为保留蒙特卡罗样本的0.025分位数和0.975分位数。

    • 后验变量包含概率(政权)只适用于SSVS先验模型。低于您确定的阈值的值表示相应的预测器是不重要的或多余的。

    尽管您估计了多个后验模型,但一个好的做法是检查后验图是否有足够的混合,特别是对于使用调谐参数值边界估计的模型。详情请参见后验估计与模拟诊断

  5. 确定最佳后验模型。两个例子是:

    • 选择最简单的模型,使均方误差(MSE,的均值)最小化Sigma2)。这种方法很简单,但是得到的模型可能不能很好地泛化。

    • 选择最简单的模型,使预测MSE最小化。

      1. 将数据划分为估计样本和预测样本。

      2. 对于所有选定的调优参数值,使用估计样本数据估计后验分布。

      3. 使用预测样本和使用后验预测分布预测的响应来计算预测的MSE。

  6. 使用新的预测器数据预测反应预测.的预测函数通过实现吉布斯采样器从后验预测分布构造预测。检查拉杆是否充分混合。

参考文献

[1]乔治,e。I。和r。e。麦卡洛克。"通过吉布斯抽样的变量选择"美国统计协会杂志.第88卷,第423号,1993年,第881-889页。

[2]马林,J. M.和C. P.罗伯特。贝叶斯核心:计算贝叶斯统计的实用方法。纽约:施普林格科学+商业媒体有限责任公司,2007年。

[3]帕克、T.和G.卡塞拉。“贝叶斯套索。”美国统计协会杂志.Vol. 103 No. 482, 2008, pp. 681-686。

另请参阅

功能

对象

相关的话题