Computer Enginee ring a nd Applications 计算机工程与应用
2017,53(16)
1 引言
随着信息技术的飞速发展,供人们交流沟通的虚拟
空间应运而生,论坛作为一种依托于互联网的典型虚拟
互动社区,已经成为日常生活中不可或缺的一部分。论
坛允许用户自主开贴、自由回复,所产生的讨论内容信
息量巨大,既包含了用户的广泛观点,也反映了用户的
关注焦点,但论坛用户发言的随意性会导致大量噪声数
据的产生,如错误表达或无意义内容,另外,论坛帖子依
据时间先后顺序排列,内容接近的文本可能在网页位置
上相距甚远,因此,论坛的主要论点无法直接获得,且随
着论坛数据量的激增,论点数量随之增长,由此论坛主
题挖掘技术应运而生。论坛主题挖掘技术从论坛数据
中识别出具有主题相关性的内容,并从中提取主题,该
技术能获取论坛网站中的主题分布情况或沿时间线的
主题演化情况。
事实证明,论坛主题挖掘具有重要意义。如对热点
话题的识别或对突发话题的检测可有效应用于网络舆
情检测
[1-2]
,而高质量话题的抽取或指定话题的抽取可有
效应用于论坛信息检索
[3]
、用户行为分析
[4-5]
等领域。
2 论坛数据挖掘研究框架
信息时代来临,现代网民越来越热衷于在网络论坛
中交流互动,同时,论坛主题挖掘也成为了一个受到广
泛关注的研究方向。
2.1 问题描述
一般认为论坛主帖是发起话题的第一个帖子,在主
帖下回复的帖子称为跟帖,通常将主帖及其所有跟帖的
组合称为线程,而网络论坛则是由一系列线程构成的。
论坛主题挖掘研究综述
陈 迪,代艳君,王志锋
CHEN Di, DAI Yanjun, WANG Z hifeng
华中师范大学 教育信息技术学院,武汉 430000
School of Educational Information Technology, Central China Norma l University, Wuhan 430000, China
CHEN Di, DAI Yanjun, WA NG Zhifeng. Survey of research on forum topic mining. Com puter Engineerin g and
Ap plications, 2017, 53(16):36-44.
Ab stract:With the advent of the big data age, network forum data which is social, randomness and decentralized is explod-
ing and difficul t to be used directly. Forum topic mining can refine the main forum argument yet. It can identify the con-
tent of the user’s discussion from the complex forum data and extract the th eme. This pape r describes the pro blem and the
framework of the forum top ic mining, and classifies of e xisting technologi es , basic types as forum text preprocessing,
top ic mining algori thm a nd topic modeling. Then, the basic characteristics and typical methods of the above three kinds of
topic mining tec hnology are described, co mpared and summarized in detail. At the end of the paper, discus ses and analyzes
the current problems and development trend of the forum topic mining.
Key w ords:forum mining; topic mining; text preprocessing; topic model
摘 要:伴随着互联网大数据时代的来临,网络论坛数据呈爆炸式增长,这类数据具有社会性、随意性、分散性等特
点,难以被直接使用。而论坛主题挖掘技术能从复杂的论坛数据中识别出用户集中讨论的文本内容,并从中提取主
题,以达到提炼论坛主要论点的目的。对论坛主题挖掘进行了问题描述和任务框架梳理,并依照任务框架对现有技
术进行了分类,基本类型为论坛文本预处理、主题挖掘算法和主题建模,详细阐述了以上三类论坛主题挖掘技术的基
本特征和典型方法,进行了比较与总结,对论坛主题挖掘当前存在的问题及其发展趋势进行了分析与讨论。
关键词:论坛挖掘 ;主题挖掘 ;文本预处理;主题模型
文献标志码:A 中图分类号:TP 391 doi:10.3778/j.issn.1002-8331.1705-0183
基金项目:国家自然科学基金(No.61501199);国家科技支撑计划(No.2015BAK33B02)。
作者简介:王志锋(1985—),男,博士,讲师,研究领域为信号处理、机器学习与数据挖掘,E-mail:zfwang@mail.ccnu.edu.cn。
收稿日期:2017-05-15 修回日期:2017-06-27 文章编号:1002-8331(2017)16-0036-09
36
评论0