没有合适的资源?快使用搜索试试~ 我知道了~
基于LDA模型的新闻话题分类研究
需积分: 11 13 下载量 52 浏览量
2015-01-29
08:17:09
上传
评论 3
收藏 1.39MB PDF 举报
温馨提示
【基于LDA模型的新闻话题分类研究】这篇文章探讨了如何运用Latent Dirichlet Allocation(LDA)模型来解决新闻话题分类的问题。LDA是一种在数据挖掘和文本分析领域广泛应用的统计主题模型,它能够自动从大量文本数据中发现隐藏的主题结构。 在新闻话题分类的背景下,LDA模型首先对新闻数据集进行建模,通过Gibbs抽样算法估计模型参数,确定每个文档所属的主题概率分布。这个过程是基于贝叶斯统计的,通过选取最佳的主题数来优化模型的性能。通常,最佳主题数的选择会用到诸如 perplexity 或者其他评估指标,例如在这里提到的“Bias standard method”。 接着,文章利用Jensen-Shannon(JS)距离来衡量新闻文档之间的语义相似性。JS距离是一种衡量两个概率分布差异的度量,它可以捕捉到文档之间的语义关联,而不仅仅是词汇上的相似。通过计算所有文档对之间的JS距离,可以构建一个相似度矩阵,这为后续的聚类提供了基础。 文章采用了增量文本聚类算法,这是一种动态处理新数据的聚类方法,能够适应新闻数据的实时性和动态性。通过对新闻文档进行聚类,可以把同一话题下的新闻划分为不同的子话题,从而实现对新闻话题的细化分类。 实验结果证明了该方法的有效性,能够有效地对新闻话题进行划分,提高用户浏览新闻的体验。这种方法尤其适用于那些没有明确分类或分类模糊的新闻网站,可以提升信息检索和浏览的效率。 本文的研究结合了LDA模型的统计建模能力,JS距离的语义相似度计算,以及增量聚类算法的动态处理特性,为新闻话题的自动分类提供了一种有效的方法。这种方法对于大数据时代的新闻信息管理,特别是对于新闻推荐系统和搜索引擎优化有着重要的实践价值。
资源推荐
资源详情
资源评论
Computer Knowledge and Technology
电脑知识与技术
第 10 卷第 16 期 (2014 年 6 月)
软件设计开发
本栏目责任编辑:谢媛媛
基于 LDA 模型的新闻话题分类研究
谈成访
1,2
,汪材印
2
(1.宿州学院 信息工程学院,安徽 宿州 234000;2.宿州学院 智能信息处理实验室,安徽 宿州 234000)
摘要: 针对部分网站中新闻话题没有分类或者分类不清等问题, 将 LDA 模型应用到新闻话题的分类中。首先对新闻数据
集进行 LDA 主题建模,根据贝叶斯标准方法选择最佳主题数,采用 Gibbs 抽样间接计算出模型参数,得到数据集的主题概
率分布;然后根据 JS 距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将
新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。
关键词: LDA;文本聚类;新闻话题;分类;主题
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)16-3795-03
Study on Classification of News Topic Based on LDA Model
TAN Cheng-fang
1,2
, WANG Cai-yin
2
(1. School of Information Engineering, Suzhou 234000, China; 2. Intelligent Information Processing Lab, Suzhou 234000, China)
Abstract: The LDA model is applied to the classification of news topic on the website because of its no classification or unclear
classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard
method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters; and then
similarity matrix is obtained based on the semantic similarity between documents by computing JS distance; finally, the incremen⁃
tal clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub
topic. The experimental results show that this method can realize the division of news topic effectively.
Key words: Latent Dirichlet Allocation; Text Clustering; News Topic; Classification; Topic
1 概述
随着互联网技术的快速发展,很多门户网站提供了新闻专题报道栏目,尤其是当某一热点事件产生时,与该热点事件相关联
的新闻话题通常以专栏形式集中报道发布,以便于人们及时了解事件的发展动态。然而,目前一些网站新闻专题栏目,缺少对新
闻话题进行进一步的分类或者分类不够清晰,从而影响了人们对页面的浏览兴趣。因此,如何对新闻话题具体清晰地进行分类具
有重要的研究意义。
本文将 LDA 模型融入新闻话题分类研究中,利用 JS 距离计算文档间的语义相似度,在此基础上进行文档聚类,实现对新闻话
题的进一步划分。
2 LDA 模型
LDA 是 Blei 等
[1]
提出的一种统计主题模型,包含词、主题和文档三层结构。其主要思想是文档是由若干主题混合而成,每个主
题又由一系列的词汇混合而成
[2]
。 模型的建立如图1所示。
图 1 LDA 模型
收稿日期:2014-05-24
基金项目:安徽省高校省级自然科学研究重点项目(NO.KJ2014A250);宿州学院校级科研平台开放课题项目(NO.2013YKF14);安徽
省大学生创新创业训练计划项目(NO.AH201310379082)
作者简介:谈成访(1981-),女,安徽舒城人,讲师,硕士,主要研究方向为 Web 数据挖掘和自然语言处理技术;汪材印(1979-),男,
安徽安庆人,副教授,硕士,主要研究方向为Web数据挖掘、信息检索。
E-mail: xsjl@dnzs.net.cn
http://www.dnzs.net.cn
Tel:+86-551-65690963 65690964
ISSN 1009-3044
Computer Knowledge and Technology
电脑知识与技术
Vol.10, No.16, June 2014
3795
资源评论
snowparam
- 粉丝: 2
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功