概率主成分分析(PPCA)是在任意数据向量有一个或多个缺失值时估计主轴的一种方法。
PPCA基于各向同性误差模型。它试图联系p维观测向量y到相应的k-潜在(或未观察到的)变量的维度向量x,这与平均零和协方差我是正常的(k).的关系是
在哪里y为观测变量的行向量,x是潜在变量的行矢量,和ε为各向同性误差项。ε高斯是平均零和协方差的v*一世(k),v为残差方差。在这里,k需要小于剩余方差的等级大于0(v> 0)。标准主成分分析,其中残差为零,是PPCA的极限情况。观察到的变量,y,在给定潜在变量值的条件下是独立的,x.潜在性变量解释了观测变量之间的相关性而误差解释了特定变量特有的可变性y我.的p——- - - - - -k矩阵W涉及潜在和观察变量和向量μ允许模型具有非零均值。PPCA假设数据集中的值是随机丢失的。这意味着数据值是否丢失并不取决于给定的观测数据值的潜在变量。
在这种模式下,
没有封闭的解析解W和v此外,它们的估计由使用期望最大化(EM)算法的相应Loglikelihip的迭代最大化来确定。该EM算法通过将其视为额外的潜变量来处理缺失的值。在收敛处,列W张成子空间,但它们不是标准正交的。PPCA
得到标准正交系数,COEFF.
的正交化的分量W.