2016,52(17)
1 引言
随着 Web2.0 的发展,微博作为社交媒体的代表受
到了学术界、商业界以及政府部门的广泛关注。微博
(Micro-blog)是一个基于用户关系的信息共享、传播及
获取 平 台,用 户不仅 能 够 以 140 字 以 内的文 本 发布消
息,实现即时分享,还可以通过微博对某一事件发表评
论、表达观点并向其他网民施加影响
[1]
。微博在为网民
提供便捷服务的同时,也为不良信息、网络谣言甚至是
反动言论提供了传播渠道。微博已经成为舆情监测和
情报搜集的重要信息来源,吸引了大批学者对其进行研
基于词向量的微博事件追踪方法
张佳明,席耀一,王 波,唐浩浩,李天彩
ZHANG Jiaming, XI Yaoy i, WANG Bo, TANG Haohao, LI Tiancai
解放军信息工程大学 信息系统工程学院,郑州 450001
Institute of Information and System Engineeri ng, PLA Information Engineering Unive rsi ty, Zhengzhou 450001, China
ZHANG Jiaming, XI Yaoyi, WANG Bo , et al. Method of micro-blog event tracking based on word vector. Computer
Engin eering and Applica tions, 2016, 52(17):73-78.
Abstract:The tr aditional methods in micr o-blog events tracking do not achieve good performanc e, beca use the length of
micro-blog text is shorter and the cyber-words emerge constantly. To solve this problem, a metho d of mi cro-blog event
tracking based on wo rd vector is proposed. By using word v ector, semantic similarity between the words can be computed,
and the a ccuracy of semantic sim ilarity between micro -blogs can also be improve d. Firstly, the Skip-gram model is trai ned
to get the word vector by using a lar ge dataset. Then, the models for i nitial event and micro-blogs are constructed by
extracting the keyword s. Finally, the semantic similariti es between micro-blogs and the initial event are computed through
word vector, and the task of event tracking is completed according to the decision of pre-de fined threshold. The experi-
mental results show that the proposed metho d can make full use of semantic information contain ed by word vector, which
can effectively improve the tracking performance compared with traditional methods.
Key words:micro-blog; e vent tracking; short text; Skip-gram mode l; word vector; semantic inf ormation
摘 要:微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出
一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相
似度计算的准确率。该方法首先使用 Skip-gram 模型在大规模数据集上训练得到词向量;然后通过提取关键词建立
初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完
成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪
的性能。
关键词:微博;事件追踪;短文本;Skip-gram 模型;词向量;语义信息
文献标志码:A 中图分类号:TP391 doi:10.3778/j. issn.1002 -8331.1412-0144
基金项目:国家高技术研究发展计划(863)(No.2011AA7032030D);全军军事研究生课题资助项目(No.2011JY002-158);国家社
会科学基金项目(No.14BXW028)。
作者简介:张佳明(1989—),男,硕士研究生,研究方向:事件追踪与情感分析,E-mail:ZhangJM0629@163.com;席耀一(198 7—),
男,博士生,研究方向:基于时间线的事件追踪与摘要;王波(1970—),男,副教授,研究方向:网络协议分析、智能信息处理;
唐浩浩(1990—),男,硕士研究生,研究方向:文本倾向性分析;李天彩(1990—),男,硕士研究生,研究方向:文本分割。
收稿日期:2014-12-10 修回日期:2015-02-13 文章编号:1002-8331(201 6)17-0073-06
CNKI网络优先出版:2015-06 -16, http://www.cnki.net/kcms/detail/11. 2127.TP.20150616.1342.017.html
⦾大数据与云计算⦾
C omputer Engineering and Applications计算机工程与应用
73
评论0