概率主成分分析(PPCA)是在任意数据向量有一个或多个缺失值时估计主轴的一种方法。
PPCA基于各向同性误差模型。它试图联系p维观测向量y到相应的k-潜在(或未观察到的)变量的维度向量x,为正态分布,均值为零,协方差I(k).的关系是
在哪里y为观测变量的行向量,x是潜变量的行向量,和ε为各向同性误差项。ε高斯函数的均值是0,协方差是v*我(k),v为残差方差。在这里,k需要小于秩才能使残差大于0 (v> 0)。标准主成分分析,其中残差为零,是PPCA的极限情况。观察到的变量,y,在给定潜在变量值的条件下是独立的,x.潜在性变量解释了观测变量之间的相关性而误差解释了特定变量特有的可变性y我.的p——- - - - - -k矩阵W联系潜在变量和观察变量,以及向量μ允许模型具有非零均值。PPCA假设数据集中的值是随机丢失的。这意味着数据值是否丢失并不取决于给定的观测数据值的潜在变量。
在这种模式下,
没有封闭的解析解W和v,因此它们的估计是通过使用期望最大化(EM)算法对相应的对数似然进行迭代最大化来确定的。这个EM算法通过将缺失的值作为附加的潜在变量来处理。在收敛时,列W张成子空间,但它们不是标准正交的。车牌提取
得到标准正交系数,多项式系数
的正交化的分量W.