Computer Knowledge and Technology
电脑知识与技术
第 10 卷第 16 期 (2014 年 6 月)
软件设计开发
本栏目责任编辑:谢媛媛
基于 LDA 模型的新闻话题分类研究
谈成访
1,2
,汪材印
2
(1.宿州学院 信息工程学院,安徽 宿州 234000;2.宿州学院 智能信息处理实验室,安徽 宿州 234000)
摘要: 针对部分网站中新闻话题没有分类或者分类不清等问题, 将 LDA 模型应用到新闻话题的分类中。首先对新闻数据
集进行 LDA 主题建模,根据贝叶斯标准方法选择最佳主题数,采用 Gibbs 抽样间接计算出模型参数,得到数据集的主题概
率分布;然后根据 JS 距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将
新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。
关键词: LDA;文本聚类;新闻话题;分类;主题
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)16-3795-03
Study on Classification of News Topic Based on LDA Model
TAN Cheng-fang
1,2
, WANG Cai-yin
2
(1. School of Information Engineering, Suzhou 234000, China; 2. Intelligent Information Processing Lab, Suzhou 234000, China)
Abstract: The LDA model is applied to the classification of news topic on the website because of its no classification or unclear
classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard
method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters; and then
similarity matrix is obtained based on the semantic similarity between documents by computing JS distance; finally, the incremen⁃
tal clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub
topic. The experimental results show that this method can realize the division of news topic effectively.
Key words: Latent Dirichlet Allocation; Text Clustering; News Topic; Classification; Topic
1 概述
随着互联网技术的快速发展,很多门户网站提供了新闻专题报道栏目,尤其是当某一热点事件产生时,与该热点事件相关联
的新闻话题通常以专栏形式集中报道发布,以便于人们及时了解事件的发展动态。然而,目前一些网站新闻专题栏目,缺少对新
闻话题进行进一步的分类或者分类不够清晰,从而影响了人们对页面的浏览兴趣。因此,如何对新闻话题具体清晰地进行分类具
有重要的研究意义。
本文将 LDA 模型融入新闻话题分类研究中,利用 JS 距离计算文档间的语义相似度,在此基础上进行文档聚类,实现对新闻话
题的进一步划分。
2 LDA 模型
LDA 是 Blei 等
[1]
提出的一种统计主题模型,包含词、主题和文档三层结构。其主要思想是文档是由若干主题混合而成,每个主
题又由一系列的词汇混合而成
[2]
。 模型的建立如图1所示。
图 1 LDA 模型
收稿日期:2014-05-24
基金项目:安徽省高校省级自然科学研究重点项目(NO.KJ2014A250);宿州学院校级科研平台开放课题项目(NO.2013YKF14);安徽
省大学生创新创业训练计划项目(NO.AH201310379082)
作者简介:谈成访(1981-),女,安徽舒城人,讲师,硕士,主要研究方向为 Web 数据挖掘和自然语言处理技术;汪材印(1979-),男,
安徽安庆人,副教授,硕士,主要研究方向为Web数据挖掘、信息检索。
E-mail: xsjl@dnzs.net.cn
http://www.dnzs.net.cn
Tel:+86-551-65690963 65690964
ISSN 1009-3044
Computer Knowledge and Technology
电脑知识与技术
Vol.10, No.16, June 2014
3795