http://www.paper.edu.cn
- 1 -
基于 LDA 模型的微博话题检测
汪进祥
1
,刘念
2**
作者简介:汪进祥(1991-),男,硕士,数据挖掘
通信联系人:刘念(1985-),男,讲师,信息安全. E-mail: pidstuliu@163.com
(1. 北京邮电大学信息安全中心,北京 100876;
2. 北京电子科技学院信息安全系,北京 100080) 5
摘要:随着微博用户的不断增长,国外的 Twitter 和国内的新浪微博已经成为媒体和个人发
布信息的重要平台.对于微博这种特殊的文本,通常小于 140 字,包含了丰富的社会化信息,
且微博内容不仅包含话题文本,也包含其他无话题表征能力的冗余文本,传统的文本挖掘算
法并不能很好的做微博话题的提取 .本文结合中文词性标注和 LDA(Latent Dirichlet 10
Allocation)主题模型两种方法用于微博话题提取,运用中文词性标注可以很好的过滤掉微
博文本中无话题表征能力的文本词语,运用 LDA 主题模型可以将文本信息表示在一个低维的
主题空间之中,从而有效的挖掘文本潜在的关系,从语义上更好的挖掘微博话题.实验表明相
较于传统的文本分析分析方法,中文词性标注和 LDA 模型结合能够提高话题发现的准确率.
最后本文提出如何计算话题热度,基于话题热度对话题进行排序. 15
关键词:主题模型;话题检测;词性标注;短文本
中图分类号:TP391.1
EVENT DETECTION FROM MICROBLOGS BASED ON
LDA MODEL 20
WANG Jinxiang
1
, LIU Lian
2
(1. Information Security Center, Beijing University of Posts and Telecommunications, Beijing
100876;
2. Department of Information Security, Beijing Electronic Science&Technology Institute, Beijing
100080) 25
Abstract: As the number of microblog users is growing, twitter and weibo have become important
information platforms for media and individuals.The content of microblogs are usually short (less
than 140 words) and contain wealth of social information, so traditional text mining algorithms are
not good at extracting microblog topics. In this paper, we combined chinese POS(Part Of Speech)
tagging and LDA (Latent Dirichlet Allocation ) topic model to extract topics form microblogs.It 30
showed that POS tagging can filter out useless information of microblogs and lda model can
represent text data into a low dimensional topic space. And it also showed that combining POS
tagging and LDA model can improve the accuracy of extracting topic from microblogs. Also in
this paper, we proposed a new method to calculate the heat of topics that had been extracted, and
ranked the topics based on the heat of the topics. 35
Key words: lda; event detection; part of speech tagging; short text
0 引言
微博是一种新兴的互联网社交网络服务, 拥有快捷的信息发布, 简短的信息流, 更快的40
信息传播速度. 用户可以通过电脑, 手机或是其他平台登录微博, 实时的进行短文本信息的
发布, 关注该用户的用户可以看到该消息, 并且可以进行转发分享操作. 微博基于用户之间
的社交网络关系, 构成信息发布, 分享和传播的平台.与传统的新闻媒体相比, 微博的信息提
供者不再是单一的新闻媒体工作者, 新出现的事件和新闻可以第一时间由普通大众在微博