ecmnmle

不完全多元正态数据的均值和协方差

语法

[Mean,Covariance] = ecmnmle(Data,InitMethod,MaxIterations,Tolerance,Mean0,Covar0)

参数

数据

NUMSAMPLES——- - - - - -NUMSERIES矩阵NUMSAMPLES的样本NUMSERIES-维随机向量。缺失的值由s.样品也称为样品观察或者一个记录

InitMethod

(可选)字符向量,标识用于计算数据平均值和协方差的初始估计的三种定义初始化方法之一。如果InitMethod[],默认方法nanskip使用。初始化方法为:

  • nanskip-(默认值)跳过所有与年代。

  • 二级-估计平均值。填满S和mean。然后估计协方差。

  • 对角-形成对角协方差。

    请注意

    如果你提供Mean0而且Covar0InitMethod未执行。

MaxIterations

(可选)期望条件最大化(ECM)算法的最大迭代次数。默认=50

宽容

(可选)ECM算法的收敛容差值(默认=1.0 e-8)。如果宽容0,执行指定的最大迭代次数MaxIterations除非在显示模式下,否则不要在每一步评估目标函数,如下所述。

Mean0

(可选)初始NUMSERIES——- - - - - -1列向量的均值估计。如果你离开Mean0未指定的([])所指定的方法InitMethod使用。如果你指定Mean0,您还必须指定Covar0

Covar0

(可选)初始NUMSERIES——- - - - - -NUMSERIES协方差的矩阵估计,其中输入矩阵必须是正定的。如果你离开Covar0未指定的([])所指定的方法InitMethod使用。如果你指定Covar0,您还必须指定Mean0

描述

[Mean,Covariance] = ecmnmle(Data,InitMethod,MaxIterations,Tolerance,Mean0,Covar0)估计一个数据集的平均值和协方差。如果数据集有缺失值,本例程实现了经过Sexton和Swensen[3]改进的孟和Rubin[2]的ECM算法。ECM代表期望条件最大化, Dempster, Laird, Rubin的EM算法[4]的条件最大化形式。

这个例程有两种操作模式。

显示模式

该模式没有输出参数,显示ECM算法的收敛性。它估计并绘制ECM算法每次迭代的目标函数值,直到终止,如下图所示。

显示模式可确定麦克斯特而且宽容价值观或作为诊断工具。目标函数是观测数据的负对数似然函数,收敛到最大似然估计对应于目标的最小化。

评估模式

通过输出参数,该模式通过ECM算法估计平均值和协方差。

例子

看一个如何使用的例子ecmnmle,运行程序ecmguidemo

算法

全部折叠

模型

一般的模型是

Z N e 一个 n C o v 一个 r 一个 n c e

每一行数据是对Z

每次观察Z假设为iid(独立,同分布)多元正态,假设缺失值为随机缺失(MAR)。请参阅Little和Rubin[1]以获得MAR的精确定义。

这个例程估计给定数据的平均值和协方差。如果数据值缺失,该例程实现孟和Rubin[2]的ECM算法,并通过Sexton和Swensen[3]进行增强。

如果记录为空(样本中的每个值都为空)),此例程忽略该记录,因为它没有提供任何信息。如果数据中存在这样的记录,则估计中使用的非空样本数量≤NumSamples

协方差的估计是有偏差的最大似然估计。要转换为无偏估计,请将协方差乘以/ (- 1),其中是估计中使用的非空样本的数目。

需求

这个例程需要一致的值NUMSAMPLES而且NUMSERIESNUMSAMPLES>NUMSERIES.它必须有足够的非缺失值才能收敛。最后,它必须有一个正定的协方差矩阵。虽然参考文献提供了一些充要条件,但在缺少数据的情况下,不存在解存在唯一性的一般条件。金宝搏官方网站主要失效模式为病态协方差矩阵估计。尽管如此,这个例程适用于丢失数据少于15%(财务数据的典型上限)的大多数情况。

初始化方法

这个例程有三种初始化方法,涵盖了大多数情况,每种方法都有其优缺点。ECM算法总是收敛到观测到的负对数似然函数的最小值。如果重写初始化方法,则必须确保协方差矩阵的初始估计是正定的。

下面是支持的初始化方法的指南。金宝app

nanskip

nanskip方法适用于小问题(少于10个序列或单调的缺失数据模式)。它跳过了任何记录S并仅从完整数据记录中估计初始值。这种初始化方法的收敛速度快于ECM算法。这个例程切换到二级方法,如果它确定大量记录包含

二级

二级方法是大型问题(超过10个系列)的最佳选择。它使用每个系列的所有可用数据来估计每个系列的平均值。然后估计协方差矩阵,将缺失值视为等于平均值,而不是s.该初始化方法具有鲁棒性,但容易导致ECM算法收敛较慢。

对角

对角方法是一种最坏情况的方法,用于处理有问题的数据,例如不连贯的序列和过多的缺失数据(超过33%的数据缺失)。在三种初始化方法中,该方法的收敛速度是ECM算法中最慢的。如果这种方法出现问题,请使用显示模式检查收敛性并进行修改MaxIterations宽容,或尝试其他的初始估计Mean0而且Covar0.如果其他方法都失败了,那就试试

Mean0 = 0 (NumSeries);Covar0 = eye(NumSeries,NumSeries);

给定这个例程的平均值和协方差的估计,您可以用伴生例程估计标准误差ecmnstd

收敛

ECM算法并不适用于所有缺失值的模式。尽管它在大多数情况下都有效,但如果协方差变得奇异,它可能无法收敛。如果出现这种情况,对数似然函数的图往往在多次迭代中具有恒定的向上斜率,因为协方差的负行列式的对数趋于零。在某些情况下,由于机器精度误差,目标不能收敛。没有关于缺失数据模式的一般理论来确定这些情况。已知故障的一个例子是,两个时间序列成比例,且两个序列都包含非缺失值。

参考文献

[1]利特尔,罗德里克J. A.和唐纳德B.鲁宾。缺失数据的统计分析。第二版。约翰·威利父子公司,2002年。

[2]孟,小李和唐纳德·b·鲁宾。“通过ECM算法的最大似然估计。”生物统计学。第80卷,1993年第2期,第267-278页。

塞克斯顿,乔和安德斯·赖格·斯文森。以EM速率收敛的ECM算法生物统计学。第87卷第3期,2000年,第651-662页。

[4]邓普斯特,a.p., n.m.莱尔德,唐纳德·b·鲁宾。“通过EM算法从不完全数据中获得最大似然”皇家统计学会杂志。B辑,第39卷,1977年第1期,第1 - 37页。

R2006a之前介绍