没有合适的资源?快使用搜索试试~ 我知道了~
计算机研究 -基于增量聚类的新闻话题发现研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 55 浏览量
2022-06-29
06:58:34
上传
评论
收藏 1.3MB PDF 举报
温馨提示
试读
48页
计算机研究 -基于增量聚类的新闻话题发现研究.pdf
资源推荐
资源详情
资源评论
ABSTRACT
With the rapid development of Internet technology, Internet has established itself
as the fourth largest media dominance, become the major carrier of releasing
information, getting information and transporting information to the public. Due to
timeliness and universality of news reports, news portals have become its vanguard of
news report. In addition, the point of view and quantity of the news reports also can
reflects current public opinion and the main social contradiction to a certain extent.
Therefore, it is vital and urgent to do research on discovering hot topics on Internet
and study how to find that. It has been found that in finding news topic research,
timeliness and definiteness of network information are the most important aspects.
The core technology is clustering algorithm used on news topics. Considering
clustering algorithm accuracy and objectiveness of analysis, this paper studies two
key technologies which are incremental clustering algorithm and machine translation
for real practical meaning.
This paper mainly includes three aspects. The first one is doing Chinese Word
Segmentation after getting reports on each portal news sites, aiming to make the
segmentation more suitable for next steps. This paper improves the traditional
segmentation methods, obtaining accurate and adaptive results. The second aspect is
improved traditional single-pass incremental clustering algorithm on accuracy and
recall rate of clustering, which is the focus of this article. The third one is improved
the objectivity and persuasive of news topic through combining news information
clustering results from present domestic news sites with machine translation
technology and overseas research on news report.
keywords: Topic Detection, Chinese Word Segmentation, Incremental Clustering,
Machine Translation
目 录
第一章 绪论.................................................................................................................. 1
1.1 课题研究的背景和意义.................................................................................. 1
1.2 国内外研究现状.............................................................................................. 2
1.3 现有的话题发现系统存在的问题.................................................................. 3
1.4 本文的研究内容和组织结构.......................................................................... 4
1.4.1 本文的研究内容.................................................................................... 4
1.4.2 本文的组织结构.................................................................................... 5
第二章 论文的相关工作.............................................................................................. 6
2.1 文本预处理...................................................................................................... 6
2.1.1 中文分词................................................................................................ 6
2.1.2 去停用词................................................................................................ 7
2.2 文本特征表示与相似度计算.......................................................................... 7
2.2.1 文本特征表示........................................................................................ 7
2.2.2 相似度计算............................................................................................ 8
2.3 聚类算法.......................................................................................................... 8
2.3.1 层次聚类算法........................................................................................ 8
2.3.2 划分式聚类算法.................................................................................... 9
2.3.3 基于密度的方法.................................................................................... 9
2.3.4 基于网格的方法.................................................................................... 9
2.4 机器翻译.......................................................................................................... 9
第三章 改进的增量聚类算法的实现........................................................................ 11
3.1 CRF 分词的改进实现 .................................................................................... 11
3.1.1 CRF 分词存在的问题 .......................................................................... 11
3.1.2 实验过程与结果.................................................................................. 13
3.1.3 改进分词的意义.................................................................................. 14
3.2 传统增量聚类算法的设计............................................................................ 14
3.2.1 文本向量化.......................................................................................... 14
3.2.2 传统增量聚类算法设计...................................................................... 16
3.2.3 传统增量聚类算法不足...................................................................... 17
3.3 改进的增量聚类算法设计............................................................................ 18
3.3.1 改进算法概述...................................................................................... 18
3.3.2 具有更新选择器的增量聚类算法设计与意义.................................. 19
3.3.3 引入待排队列的增量聚类算法设计与意义...................................... 20
3.3.4 ICCQ 算法设计 .................................................................................... 22
3.4 实验结果与分析............................................................................................. 23
3.4.1 数据来源.............................................................................................. 23
3.4.2 实验过程.............................................................................................. 23
3.4.3 评价指标.............................................................................................. 24
3.4.4 实验结果.............................................................................................. 24
3.4.5 结果分析.............................................................................................. 26
3.4.6 实验小结.............................................................................................. 26
第四章 ICCQ 结合机器翻译的应用 ......................................................................... 28
4.1 ICCQ 结合机器翻译应用概述 ...................................................................... 28
4.2 统计机器翻译模型........................................................................................ 29
4.3 实验过程与环境搭建.................................................................................... 32
4.3.1 NiuTrans 开源翻译系统介绍 ............................................................... 32
4.3.2 实验的环境搭建.................................................................................. 32
4.3.3 实验的方法与流程.............................................................................. 33
4.4 实验结果........................................................................................................ 34
4.5 结果分析........................................................................................................ 37
第五章 总结与展望.................................................................................................... 39
5.1 本文所解决的问题........................................................................................ 39
5.2 不足之处........................................................................................................ 39
5.3 展望................................................................................................................ 40
参考文献...................................................................................................................... 41
发表文献和科研情况说明.......................................................................................... 47
致 谢...................................................................................................................... 48
第一章 绪论
1
第一章 绪论
1.1 课题研究的背景和意义
随着互联网技术的迅猛发展,网络信息量正在以指数级速度迅速增长,网络
已经成为公众获取信息的主要来源。信息匮乏的窘境不仅不复存在;反之,信息
量过载则成为当前严重的问题。如何从浩如烟海的信息中发现有效的信息成为亟
待解决的首要问题。互联网所传播的各类信息中,新闻信息又是十分重要且信息
量极大的一类信息。中国互联网络信息中心发布的第 34 次中国互联网络发展状
况统计报告显示,截至 2014 年 6 月,我国网民规模已达 6.32 亿,其中网络新闻
用户规模为 50316 万
[1]
。
当一个热点事件发生时,不同的新闻网站会根据自己的观点发布不同的新闻
信息,而我国新闻网站数量众多,发布的新闻信息量将远远超出一个人吸收和理
解信息的能力。传统的搜索引擎虽然可以在一定程度上缓解新闻信息过载的问题,
但搜索引擎在处理新闻信息的过程中仍有自己的局限性。面对海量的新闻信息,
我国数量庞大的网民迫切需要一种新闻处理技术可以让他们快速了解每天发生
的热点事件以及相关的新闻报道。热点话题检测技术的出现,恰好能够帮助人们
解决新闻信息过载的问题,通过使用数据挖掘技术对各类新闻网站每天发布的新
闻信息进行处理,可以使网络新闻用户快速了解当前的新闻热点以及焦点。
热点话题检测技术是话题检测与跟踪(Topic Detection and Tracking,TDT)
[2]
的主要任务之一,TDT 是研究如何将新闻信息有效地组织起来以方便新闻用户
的技术,其涉及的信息处理对象包括网络信息、电视广播信息、无线电广播信息
等,通过将信息以热点的形式划分和组织起来,以达到帮助人们解决信息过载问
题的目的
[3]
。话题检测与跟踪技术的应用非常广泛,目前已被应用于各个领域,
如网络舆情信息监控、互联网金融分析、网络论坛信息监控和网络信息安全等,
这种技术可以搜集来自各个信息源的信息,通过数据挖掘技术对搜集到的信息进
行分析处理之后可以形成热点话题和找出突发事件,帮助网络新闻用户解决信息
过载问题,为互联网监管部门的安全决策提供信息依据,有利于推动社会的长足
发展和进步。
第一章 绪论
2
1.2 国内外研究现状
话题检测最早出现在话题检测与跟踪领域,两者采用的是相同的技术。TDT
是由美国国防部高级研究规划署(Advanced Research Project Agency,ARPA)和
国家标准技术局(NIST)于 1996 年发起研究的一项新技术,其目的是提取各类
信息进行分类整理以提取热点信息,从而帮助人们解决信息过载问题。NIST 为
TDT 设立了五项基础性的研究任务,包括面向新闻广播类报道的切分任务、面
向已知话题的跟踪任务、面向未知话题的检测任务、对未知话题首次相关报道的
检测任务和报道间相关性的检测任务
[3]
。经过几年的研究与发展,TDT2004 对
TDT 研究的任务重新做修订和补充,TDT2004 确立的 TDT 最新的研究任务包括:
新事件检测、报道关系检测、话题检测、话题跟踪、自适应话题跟踪以及层次话
题跟踪
[4]
。TDT2004 对各个任务的具体定义如下:(1)新事件检测:要求检测
系统能够针对具备时间顺序的新闻语料及时地检测出最新发生的事件;(2)报
道关系检测:判断语料中的两篇新闻报道是否属于同一新闻话题;(3)话题检
测:将关于同一话题的新闻报道聚集起来形成新话题;(4)话题跟踪:对于某
个检测系统已经确定的话题,判断后续加入的新闻报道是否属于检测系统已确定
的话题;(5)自适应话题跟踪:具备自适应学习能力能够根据学习能力自动追
踪话题;(6)层次话题检测:层次话题检测是话题检测的扩展,在层次话题检
测中一篇新闻报道可以归属于多个新闻话题,一个新闻话题也可包含多个子话题。
国外 TDT 研究起步比国内早,是由美国于 1997 年首先发起的,当时 CMU
等一流大学的众多知名学者参与其中,对 TDT 研究取得了初步成果,获取了宝
贵的经验。目前,包括 CMU、UMass、Cambridge 等在内的一流大学以及 IBM
等公司在 TDT 的评测中已经取得很好的成绩。TDT 研究任务主要集中在三个方
面:新闻报道切分、新事件检测、事件跟踪
[2]
之后,随着科研人员对 TDT 研究
的不断深入,多种新方法新技术不断被应用到 TDT 中来,TDT 的研究领域不断
被拓宽。在话题检测方面,CMU 的科研人员最先探究了用凝聚层次聚类的方法
进行在线热点话题检测,凝聚层次聚类方法虽然实验结果比单一路径聚类略差,
但却为话题检测提供了新的思路
[5]
。在随后的研究过程中,以 Single-Pass 为主的
凝聚层次聚类算法和文本特征提取与表示方法受到研究人员的重视,被研究人员
不断改进从而提出效果更优秀的新方法。
Khoo 等人提出了一种词频-逆文档频率(Term Frequency–Inverse Document
Frequency,TF*IDF)算法用以提取文本特征并开发了一套信息处理系统可以从
新闻报道中提取主要的热点话题,实验结果表明基于 TF*IDF 的信息处理系统在
热点话题检测应用中效果明显
[6]
。Kumaran 和 Allan 将自然语言处理技术应用于
剩余47页未读,继续阅读
资源评论
programyp
- 粉丝: 86
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- pta题库答案c语言之排序4统计工龄.zip
- pta题库答案c语言之树结构7堆中的路径.zip
- pta题库答案c语言之树结构3TreeTraversalsAgain.zip
- pta题库答案c语言之树结构2ListLeaves.zip
- pta题库答案c语言之树结构1树的同构.zip
- 基于C++实现民航飞行与地图简易管理系统可执行程序+说明+详细注释.zip
- pta题库答案c语言之复杂度1最大子列和问题.zip
- 三维装箱问题(Three-Dimensional Bin Packing Problem,3D-BPP)是一个经典的组合优化问题
- 以下是一些关于Linux线程同步的基本概念和方法.txt
- 以下是一个简化的示例,它使用pygame库来模拟烟花动画的框架.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功