12.2 概率PCA
前⼀节讨论的PCA的形式所基于的是将数据线性投影到⽐原始数据空间维度更低的⼦空间
内。我们现在说明,PCA也可以被视为概率潜在变量模型的最⼤似然解。PCA的这种形式,被
称为概率PCA(probabilistic PCA),与传统的PCA相⽐,会带来如下⼏个优势。
• 概率PCA表⽰⾼斯分布的⼀个限制形式,其中⾃由参数的数量可以受到限制,同时仍然使
得模型能够描述数据集的主要的相关关系。
• 我们可以为PCA推导⼀个EM算法,这个算法在只有⼏个主要的特征向量需要求出的情况
下,计算效率⽐较⾼,并且避免了计算数据协⽅差矩阵的中间步骤。
• 概率模型与EM的结合使得我们能够处理数据集⾥缺失值的问题。
• 概率PCA混合模型可以⽤⼀种有理有据的⽅式进⾏形式化,并且可以使⽤EM算法进⾏训
练。
388