主要内容

后验估计与模拟诊断

经验模型、自定义模型和半共轭先验模型产生了难以分析的后验分布(有关更多细节,请参见难分析的后验).为了总结用于估计和推断的后验分布,第一个模型需要蒙特卡罗抽样,后两个模型需要马尔科夫链蒙特卡罗(MCMC)抽样。当使用蒙特卡罗样本(尤其是MCMC样本)估计后验分布时,您可能会遇到一些问题,导致样本不能充分代表后验分布或不能总结后验分布。在这种情况下,基于后验图的估计和推断可能是不正确的。

即使后验在分析上是可处理的,或者你的MCMC样本代表了真实的后验,你对先验分布的选择也会以不希望的方式影响后验分布。例如,先验分布的一个小变化,例如先验超参数值的一个小增加,可以对后验估计或推断产生很大的影响。如果后验对先验假设如此敏感,那么基于后验对统计数据和推论的解释可能会产生误导。

因此,从抽样算法得到后验分布后,确定样本的质量是很重要的。此外,无论后验是否可分析处理,检查后验对先验分布假设的敏感性是很重要的。

诊断MCMC样本

在绘制MCMC样本时,一个好的做法是绘制一个较小的试点样本,然后查看跟踪情节所绘制的参数值,以检查样品是否足够。跟踪情节所绘制的参数值与仿真指标的关系图。一个令人满意的MCMC样本很快达到平稳分布,混合得很好,也就是说,在广泛的步骤中探索分布,几乎没有以前绘制的记忆。这个数字是一个令人满意的MCMC样本的例子。

此列表描述了MCMC样本的有问题的特征,给出了在跟踪图中寻找什么的示例,并描述了如何解决问题。

  • MCMC样本似乎传播到平稳分布,也就是说,它显示瞬态行为

    要解决这个问题,可以使用以下技术之一:

    • 为更接近平稳分布均值的参数指定起始值,或指定您期望的后验值,使用BetaStart而且Sigma2Start名称-值对参数。

    • 指定一个老化周期,即从数字抽取开始,从后验估计中移除,使用燃烧名称-值对参数。老化期应该足够大,以使剩余的样品类似于令人满意的MCMC样品,并且足够小,以使调整的样本量足够大。

  • MCMC样本显示出较高的序列相关性。下图为轨迹图和自相关函数(ACF)图(见autocorr).

    轨迹图显示,后续样本似乎是过去样本的函数。ACF图显示了一个高度自相关的过程。

    这样的MCMC样本混合不良,需要很长时间来充分探索分布。试试下面的方法:

    • 如果您有足够的资源,那么基于大型MCMC样本的估计大约是正确的。

    • 为了降低高自相关性,可以保留MCMC样本的一部分变薄使用名称-值对参数。

    • 对于自定义先验模型,尝试使用不同的采样器的取样器名称-值对参数。若要调整采样器的调优参数,请使用创建采样器选项结构sampleroptions,它允许您指定采样器及其调优参数的值。然后,将采样器选项结构传递给估计模拟,或预测通过使用“选项”名称-值对参数。

  • MCMC示例从一个状态跳到另一个状态。

    该图显示了以值为中心的子样本27,5,两者混合得很好。这种行为可能表明以下品质之一:

    • 至少有一个参数无法识别。你可能不得不改变你的模型和假设。

    • 你的吉布斯采样器可能有编码问题。

    • 平稳分布为多态分布。在这个例子中,处于以为中心的状态的概率7是最高的,其次是2,然后5.移出状态的概率集中在7很低。

      如果你的先验很强,而你的样本容量很小,那么你可能会看到这种类型的MCMC样本,这不一定是有问题的。

  • 马尔可夫链不收敛于它的平稳分布。

    曲线看起来像随机行走,因为MCMC正在慢慢探索后部。如果出现此问题,则基于MCMC样本的后验估计是不正确的。为了解决这个问题,可以尝试以下技巧:

    • 如果你有足够的资源,画更多的样本,然后确定链最终是否稳定和轻微混合。如果它确实沉降和混合相对较好,然后去除样品的开始部分,并考虑稀释其余的样品。例如,假设你在画画20000图中链的样本,然后你会发现链是稳定的37000吸引了。你可以治疗绘图1:7000作为老化(燃烧),然后薄(),以达到令人满意的自相关水平。

    • 重新参数化先验分布。当估算customblm模型对象时,可以将扰动方差重新参数化为对数尺度Reparameterize名称-值对参数。

    • 对于自定义先验模型,尝试使用不同的采样器的取样器名称-值对参数。若要调整采样器的调优参数,请使用创建采样器选项结构sampleroptions,它允许您指定采样器及其调优参数的值。然后,将采样器选项结构传递给估计模拟,或预测通过使用“选项”名称-值对参数。

除了轨迹图和ACF图,估计模拟,预测估计有效样本量.如果有效样本量小于观测数量的1%,那么这些函数就会抛出警告。详情请参见[1]

进行敏感性分析

一个敏感性分析包括确定后验估计对先验和数据分布假设的鲁棒性。也就是说,我们的目标是学习用合理的替代方案替换初始值和先验假设如何影响后验分布和推论。如果后验和推论相对于应用没有太大变化,那么后验对先验假设和初始值具有鲁棒性。后验和推论因初始假设的不同而有很大差异,可能导致不正确的解释。

进行灵敏度分析:

  1. 确定一组合理的先验模型。包括弥漫(diffuseblm)模型和主观(conjugateblmsemiconjugateblm)更容易解释并允许包含先前信息的模型。

  2. 对于前面的每个模型,确定一组合理的超参数值。例如,对于正态-逆伽玛共轭先验模型或半共轭先验模型,回归系数的先验均值和协方差矩阵以及扰动方差逆伽玛分布的形状和尺度参数选择不同的值。有关详细信息,请参见μV一个,B的名称-值对参数bayeslm

  3. 对于所有先前的模型假设:

    1. 估计对应的后验使用估计

    2. 利用后验进行推断。例如,在给定预测器数据的情况下,获得95%相等的可信区间或预测响应预测

  4. 比较模型之间的估计和推论。

    • 如果所有的估计和推论都足够相似,那么后验就是稳健的。

    • 如果估计或推断有足够的差异,那么所选先验或数据似然可能存在一些潜在的问题。由于计量经济学工具箱™中的贝叶斯线性回归框架始终假设数据为高斯分布,请考虑:

      • 从回归模型中添加或删除预测变量

      • 使先验信息更丰富

      • 完全不同的先验假设

有关灵敏度分析的详细信息,请参见[2]第六章。

参考文献

[1]盖耶,C. J.《实用马尔可夫链蒙特卡洛》。统计科学。第7卷,1992年,第473-483页。

[2] A.格尔曼,J. B.卡林,H. S.斯特恩和D. B.鲁宾。贝叶斯数据分析, 2。佛罗里达州博卡拉顿:查普曼和霍尔/CRC出版社,2004年版。

另请参阅

||

相关的话题