
EM 算法实验报告
一、 算法简单介绍
EM 算法是 Dempster,Laind,Rubin 于 1977 年提出的求参数极大似然估计的一种方法,
它可以从非完整数据集中对参数进行 MLE 估计,是一种非常简单实用的学习算法。这种方
法可以广泛地应用于处理缺损数据、截尾数据以及带有噪声等所谓的不完全数据,可以具体
来说,我们可以利用 EM 算法来填充样本中的缺失数据、发现隐藏变量的值、估计 HMM 中
的参数、估计有限混合分布中的参数以及可以进行无监督聚类等等。
本文主要是着重介绍 EM 算法在混合密度分布中的应用,如何利用 EM 算法解决混合密
度中参数的估计。
二、 算法涉及的理论
我们假设 X 是观测的数据,并且是由某些高斯分布所生成的, X 是包含的信息不完整
(不清楚每个数据属于哪个高斯分布)。
,
此时,我们用 k 维二元随机变量 Z(隐藏变量)来表示每一个高斯分布,将 Z 引入后,最终
得到: ,
,
然而 Z 的后验概率满足(利用条件概率计算):
但是,Z
nk
为隐藏变量,实际问题中我们是不知道的,所以就用 Z
nk
的期望值去估计它(利用