没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
20
16
3
Journal on Communications
March
20
16
201
6
052
-
1
37
3
Vol.
37
No.
3
doi:10.11959/j.issn.1000-436x.2016052
基于时间序列分析的微博突发话题检测方法
贺敏
1,2
,徐杰
2
,杜攀
1
,程学旗
1
,王丽宏
2
(1. 中国科学院计算技术研究所,北京 100080;2. 国家计算机网络应急技术处理协调中心,北京 100029)
摘 要:针对微博信息噪音大、新颖度难以判断的问题,在动量模型的基础上进行优化,提出了基于时序分析的
微博突发话题检测方法。通过动量模型提取候选突发特征后,对特征的动量时间序列分别借鉴信号频域分析理论
和股票趋势分析理论进行建模,分析特征的频域特性来识别频繁伪突发特征,分析特征的新颖程度来识别间歇性
伪突发特征,合并过滤后的有效突发特征形成突发话题。微博数据实验表明,该方法有效提高了突发话题检测的
准确率和 F 值。
关键词:突发话题;微博;突发特征;时序分析
中图分类号:TP391 文献标识码:A
Bursty topic detection method for microblog
based on time series analysis
HE Min
1,2
, XU Jie
2
, DU Pan
1
, CHENG Xue-qi
1
, WANG Li-hong
2
(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China;
2.National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)
Abstract: Detecting bursty topics from microblogs was an important task to understand the current events attracting a
large number of internet users. However, the existing hods suitable for news articles cannot be adopted directly for
microblogs. Because microblogs have unique characteristics compared wi formal texts, including diversity, dynamic
and noise. A detection method for microblog bursty topic was proposed based on time series analysis, which was an op-
timization method of momentum model. The candidate bursty features were extracted by momentum model. The time se-
ries of feature’s momentum were modled by frequency domain analysis theory and stock trend analysis theory. The fre-
quently pseudo-bursty features were filtered according to analysis results of frequency-domain characteristics. The inter-
mittently pseudo-bursty features were filtered according to the novelty analysis result through stock trend theory. The
bursty topics were finally emerged with combination of effective bursty features. The experiments are conducted on a real
Sina microblog data set. It show that the proposed method improves the precis and F-measure remarkably compared
with the momentum modle.
Key words: bursty topic, microblog, bursty feature, time series analysis
年
月
第
卷第
期
通
信
学
报
都是信息的生产者和传播者,信息发布、转发非常
便捷,这使微博成为信息传播速度最快的网络媒
体。社会上许多突发性话题,往往在微博平台上首
发,借助其好友转发机制迅速传播,引起广泛的社
会共鸣,进而波及传统媒体如新闻、论坛、博客等,
产生巨大的社会影响。因此,微博平台上的社会突
收稿日期:2015-04-03;修回日期:2015-08-29
基金项目:国家高技术研究发展计划(“863”计划)基金资助项目(No. 2014AA015203);国家科技支撑计划基金资助项目
(No. 2012BAH46B01)
Foundation Items: The National High Technology Research and Development Program of China (863 Program)(No. 2014AA015203),
The National Key Technology Support Program (No.2012BAH46B01)
1 引言
近年来,随着 Web 2.0 社交网络的兴起,微博
以其方便快捷的优点迅速流行起来,现在已经发展
成为网络信息传播的主要途径。微博用户数量众
多,每天产生的信息量非常庞大。在微博中,人人
第
期
贺敏
等
:
基于时间序列分析的微博突发话题检测方法
·
·
发话题检测技术,对于社会热点及时发现、网络民
意尽快感知、突发事件及早响应等方面都具有积极
的现实意义。
这里的微博突发话题是指微博上新出现的可
能在短时间内产生强大影响力的关于社会热点事
件的网络话题。传统的突发话题检测方法主要面
向新闻等长文档数据,而且以突发特征的有效识
别为基础,扩展出突发话题。与传统新闻话题相
比,微博话题作为大众媒体的产物,具有显著的
特点。
1) 话题的多样性。同一时间微博上各种话题,
如社会事件类话题、娱乐八卦类话题、个人生活琐
事等多种话题掺杂在一起,特别是一些生活琐事类
话题,可能表现出一些周期性的突发特点,如周一
“不想上班”,周末“出游计划”,月末“月光族”
等话题。
2) 话题的间歇性。同一个话题,通常会随着微
博用户的关注程度和时间的推移经历一个产生、发
展、成熟、衰退和消亡的完整生命周期。而且微博
基于好友的转发机制,导致海量的信息冗余,产生
大量的滞后过期信息,这使话题表现出一定的间歇
性特征。
微博信息表现出的这些特点,对于传统的基于
突发特征的突发话题发现方法提出了新的挑战。
1) 对于众多具有突发性特点的特征,如何过滤
日常生活类的周期性突发特征,是提高突发话题准
确性的一个关键问题。
2) 如何识别间断性突发特征,是确保突发话题
新颖性的另外一个关键问题。
本文针对上述挑战,在有意义串动量模型识别
突发话题
[1]
的基础上,进一步优化识别方法,采用
信号频域分析的方法,分析频繁特征的频谱特性,
区分社会性话题的突发特征与生活类话题的特征,
过滤频繁伪突发特征;采用股票趋势分析的方法,
利用趋势性信息间接判断突发特征的新颖度,过滤
间歇性伪突发特征,提升突发特征识别的准确率,
进而提高突发话题检测的准确率。
2 相关工作
话题检测的研究主要包括 3 类方法,第 1 类是
基于聚类的方法,有层次聚类、增量聚类等多种方
法;第 2 类是基于矩阵分解的方法,有 LSI、NMF
等模型;第 3 类是基于概率生成的方法,有 PLSI、
3
49
LDA 等模型。但是,突发话题的检测方法主要是以
突发特征的发现来驱动,再由突发特征映射到突发
话题。Fung
[1]
首次提出了以特征为中心的话题聚类
方法。该方法通过分析时间信息来获取突发特征,
然后根据突发特征的分布进行突发话题聚类。He
[2]
借鉴了 Fung 的方法,通过使用谱分析方法对词语
权重(如 TF-IDF)随时间变化的曲线进行分类,然后
使用高斯模型和高斯混合模型分别对非周期性特
征和周期性特征进行建模,寻找突发时间段,最后
使用无监督的贪婪算法检测发现周期性和非周期
性突发话题。Kleinberg
[3]
提出的二状态自动机方法
具有开创性,该方法基于一个隐马尔可夫模型
(HMM),模型中的观测数据是主题词在不同时间
点上的词频序列,隐变量是词语所处的状态(突发
状态或非突发状态),利用参数解析度和状态翻转
代价 2 个参数来触发状态转移,发现突发态和突发
特征。
近年来,在传统方法的基础上结合了社交网络
的新特性,提出了一些针对社交网络突发话题检测
的新方法。Cui 等
[4]
提出了将“#”作为 Twitter 突发
事件的指示,根据“#”出现的位置、频次分布、
作者等信息定义了稳定性、名言的可能性、作者熵
等属性来检测 Twitter 突发事件。Du
[5]
使用微博中
用户影响力、信息的点击数、回复数、收藏数来综
合表示关键词的能量,通过计算时间窗口内的平均
能量发现突发关键词,对突发关键词进行相似度比
较,合并发现突发话题。Shiva
[6]
提出了通过词典学
习的方法来识别新话题,如果当前时刻的文档不能
用从前一时刻文档中提取的词典线性表示,则将文
档判定为新颖文档,再将所有新文档聚类产生新话
题。Zhu
[7]
把网络论坛话题发现中 2 个有代表性的模
型(TF-IDF 和 UF-ITUF)结合起来,从内容特征
和用户参与度两方面计算主题和话题的相似度,由
此来更新原话题和产生新话题。
上述方法中,Cui
[5]
和 Du
[7]
的方法仅考虑了话
题的突发程度,Shiva
[6]
和 Zhu
[7]
仅考虑了话题的新
颖程度。而微博信息纷繁复杂,充斥着大量的历史
过期信息和个人生活信息,需要将突发性与新颖性
结合起来分析,才能更加准确地识别突发话题。本
文在使用动量模型判断特征突发程度的基础上,进
一步通过分析特征的时间序列判断特征的频繁程
度和新颖程度,准确识别新颖的突发话题特征,有
效检测突发话题。
201
6052
-
2
剩余6页未读,继续阅读
资源评论
weixin_38622983
- 粉丝: 5
- 资源: 959
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 1055892_1_Level! 但它是一首歌 (重置版) B大调高难度还原_首调简谱.pdf
- 1075516_1_Level!重置版(改编自Qlimtzsinxdz)_首调简谱.pdf
- Nginx安装.docx
- 网络路由技术:华为设备上配置直连路由
- 【java毕业设计】交通事故档案管理系统源码(ssm+mysql+说明文档+LW).zip
- 【java毕业设计】健康管理系统源码(ssm+mysql+说明文档).zip
- 【java毕业设计】见福便利店信息管理系统源码(ssm+mysql+说明文档+LW).zip
- 信息打点技术在APP与小程序中的应用探索及实例演示
- 大学生职业生涯规划策划书.pdf
- 【java毕业设计】机房预约系统源码(ssm+mysql+说明文档+LW).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功