概率主成分分析(PPCA)是一种估计任意数据向量有一个或多个缺失值时主轴的方法。
PPCA基于各向同性误差模型。它试图联系ap维观测矢量y到相应的k-潜在(或未观察到的)变量的维向量x,这是正常的均值为零,方差I(k)。的关系是
哪里y是观察到的变量的行向量,x是潜在变量的行向量,以及ε为各向同性误差项。ε是高斯零均值和协方差v*一世(k),v为残差方差。在这里,k需要大于秩较小的剩余方差到大于0(v> 0)。标准主成分分析,其中,所述剩余方差为零,是PPCA的极限情况。观测变量,y,是有条件独立给出的潜在变量的值,x。因此,潜在变量解释了观测变量之间的相关性,而误差解释了特定情况下的可变性y我。该p-通过-k矩阵W涉及潜和观察的变量,和所述载体μ允许模型的均值非零。PPCA假设值是通过数据集随机丢失的,这意味着数据值是否丢失并不取决于给定观测数据值的潜在变量。
在这种模式下,
没有封闭形式的解析解W和v,因此它们的估算是通过使用期望最大化(EM)算法对应的对数似然的迭代最大化来确定。这EM算法手柄将它们视为额外的潜在变量缺失值。在融合中,列W跨度子空间,但他们不是正交的。PPCA
获得正交系数_系数
,用于通过正交化的组分W。