主要内容

缺少数据的最大可能性估计

介绍

假设缺少示例数据的一部分,其中缺少值表示为s。如果缺失的值缺失 - 随机且无知,那么很少和鲁宾[7]对于这些术语具有精确的定义,可以使用期望最大化的版本,或者em,dempster,laird和rubin的算法[3]估计多元正常回归模型的参数。金融工具箱™软件中使用的算法是Meng和Rubin的ECM(期望条件最大化)算法[8]通过Sexton和Swensen的增强功能[9]

每个样品Z.K.为了K.= 1,......,m,要么完整,要么没有缺失值,空,没有观察到的值,或者观察到的值不完整。由于它们没有贡献信息,因此忽略了空样本。

要了解缺失随机和无知的条件,请考虑IPO之前的股票价格数据的示例。对于一个反征,删除的数据,其中替换了大于一些截止的所有值S,不满足这些条件。

在样品中K., 让XK.代表缺失的值Z.K.yK.代表观察到的值。定义排列矩阵P.K.以便

Z. K. = P. K. [ X K. y K. ]

为了K.= 1,......,m

ECM算法

ECM算法具有两个步骤 - E,e或期望步骤,以及CM或有条件的最大化步骤。与最大似然估计一样,参数估计根据迭代过程而发展,其中参数之后的估计值T.迭代表示为B.T.CT.

E.步骤为缺少数据的元素形成条件期望

E. [ X K. | y K. = y K. ; B. T. C T. ] C O. V. [ X K. | y K. = y K. ; B. T. C T. ]

对于每个样本 K. { 1 ...... m } 那有缺失数据。

CM步骤以与没有丢失数据的最大似然程序相同的方式进行。主要区别在于缺少数据矩是从E步骤中获得的条件期望估算。

重复E和CM步骤,直到日志似然函数停止增加。ECM算法的一个重要属性之一是它总是保证最多可以找到日志似然函数,并且在合适的条件下,该最大值可以是全局最大值。

标准错误

如果没有缺少数据,则日志似然函数的预期Hessian的负数是相同的。但是,如果缺少数据,那么Hessian,它计算在可用样本上,占由于缺失数据而导致的信息丢失。因此,Fisher信息矩阵提供了克拉姆 - RAO下限的标准错误,而Hessian矩阵提供了如果存在缺失数据,则提供可能更大的标准错误。

数据增强

ECM函数不会在估计模型参数时“填写”缺失值。在某些情况下,您可能希望填写缺失的值。虽然您可以通过条件期望填写数据中缺失的值,但您会获得乐观和不切实际的估计,因为条件估计不是随机的实现。

有几种方法是可能的,包括重新采样方法和多重估算(参见很少和鲁宾[7]和福利书[10]有关详细信息)。用于数据增强的某种非正式采样方法是基于缺失值的条件分布来形成缺失值的随机样本。给定参数估计 X R. N C ^ ,每个观察都有时刻

E. [ Z. K. ] = H K. B. ^

C O. V. Z. K. = H K. C ^ H K. T.

为了K.= 1,......,m,在那里您已经丢弃了左侧的参数依赖性以进行符号方便。

用于观察丢失值分为缺失值的值XK.并观察价值观yK.=yK.,您可以在给定观察中形成任何随机变量的对随机变量的估计的条件估计。因此,给予估计E.[Z.K.] 和COV.Z.K.)根据参数估计,您可以创建条件估计

E. [ X K. | y K. ]

C O. V. X K. | y K.

使用标准多变量正态分布理论。鉴于这些条件估计,您可以模拟来自条件分布的缺失值的随机样本

X K. N E. [ X K. | y K. ] C O. V. X K. | y K.

来自该分布的样本反映了观察结果的缺失和非贴材值的模式K.= 1,......,m。您必须从每个观察的条件分布中采样,以保留每个观察的非胶质值的相关结构。

如果您遵循此过程,则所填充的填充值是随机的,并生成渐近的平均值和协方差估计,其与ECM派生均值和协方差估计相同。但是,请注意,填充值的值是随机的,并且可能反映来自所有数据估计的分布的可能样本,并且可能不会反映特定观察的“真实”值。

也可以看看

||||||||||||||||||

相关话题