————————————
基金项目:国家科技支撑计划基金资助项目(2013BAH21B00);北京市自然科学基金资助项目(4123091);北京市属高等学校人才强教
深化计划基金资助项目“中青年骨干人才培养计划”(PHR20110815)。
作者简介:邸 亮(1988-),男,硕士研究生,主研方向:自然语言处理;杜永萍,副教授。
收稿日期:2013
-09-22 修回日期:2013-12-05 E-mail:dltt67@163.com
LDA
模型在微博用户推荐中的应用
邸 亮,杜永萍
(北京工业大学计算机科学与技术学院,北京 100124)
摘 要:潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。
为此,提出一种基于 LDA 的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-
词的三层 LDA 模型变为用户-主题-词的用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向
量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近 10%。
关键词:主题模型;潜在狄利克雷分配;微博;用户模型;兴趣分析;用户推荐
Application of LDA Model in Microblog User Recommendation
DI Liang, DU Yong-ping
(Institute of Computer Science and Technology, Beijing University of Technology, Beijing 100124, China)
【Abstract】Latent Dirichlet Allocation(LDA) model can be used for identifying topic information from large-scale document set, but the
effect is not ideal for short text such as microblog. This paper proposes a microblog user model based on LDA, which divides microblog
based on user and represents each user with their posted microbolgs. Thus, the standard three layers in LDA model by document-topic-word
becomes a user model by user-topic-word. The model is applied to user recommendation. Experiment on real data set shows that the new
provided method has a better effect. With a proper topic number, the performance is improved by nearly 10%.
【Key words】topic model; Latent Dirichlet Allocation(LDA); microblog; user model; interest analysis; user recommendation
DOI: 10.3969/j.issn.1000
-3428.2014.05.001
计 算 机 工 程
Computer Engineering
第 40 卷 第 5 期
Vol.40 No.5
2014 年 5 月
May 2014
·移动社交专题·
文章编号:1000-3428(2014)05-0001-06
文献标识码:A
中图分类号:TP311.13
1
概述
传统的主题挖掘是采用文本聚类的算法
[1]
,通过向量空
间模型
(Vector Space Model, VSM)
将文本里的非结构化数
据映射到向量空间中的点,然后用传统的聚类算法,如基
于划分的算法
(
如
K-means
算法
)
、基于层次的算法
(
如自顶
向下和自底向上算法
)
、基于密度的算法等
[2]
,实现文本聚
类。聚类结果可以近似认为满足同一个主题。但是,这种
基于聚类的算法普遍依赖于文本之间距离的计算,而这种
距离在海量文本中是很难定义的;此外,聚类结果也只是
起到区分类别的作用,并没有给出语义上的信息,不利于
人们的理解。
LSA(Latent Semantic Analysis)
是文献
[3]
提出的一种基
于线性代数挖掘文本主题的新方法。
LSA
利用
SVD(Singular
Value Decomposition)
的降维方法来挖掘文档的潜在结构
(
语义结构
)
,在低维的语义空间里进行查询和相关性分析,
通过奇异值分解等数学手段,使得这种隐含的相关性能够
被很好地挖掘出来。研究显示
[4]
,当这个语义空间的维度和
人类语义理解的维度相近时,
LSA
能够更好地近似于人类
的理解关系,即将表面信息转化为深层次的抽象
[5]
。
PLSA(Probabilistic Latent Semantic Analysis)
是文献
[6]
在研究
LSA
的基础上提出的基于最大似然法和产生式模型
的概率模型。
PLSA
沿用了
LSA
的降维思想:在常用的文
本表达方式
(tf-idf)
下,文本是一种高维数据;主题的数量是
有限的,对应低维的语义空间,主题挖掘就是通过降维将
文档从高维空间投影到了语义空间。
PLSA
通常运用
EM
算
法对模型进行求解。在实际运用中,由于
EM
算法的计算
复杂度小于传统
SVD
算法,
PLSA
在性能上、在处理大规
模数据方面也通常优于
LSA
。
潜在狄利克雷分配
(Latent Dirichlet Allocation, LDA)
在
PLSA
的基础上加入了
Dirichlet
先验分布,是
PLSA
的一个
突破性的延伸。
LDA
的创始者
Blei
等人指出,
PLSA
在文
档对应主题的概率计算上没有使用统一的概率模型,过多
的参数会导致过拟合现象,并且很难对训练集以外的文档
评论0