第二十章
潜在狄利克雷分配
潜在狄利克雷分配
• 潜在狄利克雷分配(latent Dirichlet allocation, LDA),作为基于贝
叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩
展,
• LDA 在文本数据挖掘、图像处理、生物信息处理等领域被广泛使
用
潜在狄利克雷分配
• LDA模型是文本集合的生成概率模型
• 假设每个文本由话题的一个多项分布表示,每个话题由单词的一
个多项分布表示
• 特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单
词分布的先验分布也是狄利克雷分布
• 先验分布的导入使LDA 能够更好地应对话题模型学习中的过拟合
现象
潜在狄利克雷分配
• LDA的文本集合的生成过程如下:
• 首先随机生成一个文本的话题分布
• 之后在该文本的每个位置,依据该文本的话题分布随机生成一个
话题
• 然后在该位置依据该话题的单词分布随机生成一个单词,直至文
本的最后一个位置,生成整个文本。
• 重复以 上过程生成所有文本。
潜在狄利克雷分配
• LDA模型是含有隐变量的概率图模型
• 模型中,每个话题的单词分布,每个文本的话题分布,文本的每
个位置的话题是隐变量
• 文本的每个位置的单词是观测变量
• LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样(
Gibbs sampling)和变分EM算法(variational EM algorithm),前
者是蒙特卡罗法,而后者是近似算法。