计算机研究-基于增量聚类的新闻话题发现研究.pdf资源-CSDN文库

版权申诉

118 浏览量 2022-06-29 06:58:34 上传评论收藏 1.3MB PDF 举报

第一章绪论 1.1 课题研究的背景和意义随着互联网技术的飞速发展，互联网已经成为继报纸、广播、电视之后的第四大媒体霸主，成为信息发布的主流载体，人们获取和传播信息的重要途径。新闻报道的时效性和普适性使得新闻门户网站成为了新闻报道的先锋。同时，新闻报道的观点和数量在一定程度上可以反映出当前的公众舆论和社会主要矛盾。因此，研究如何在互联网上发现热点话题并及时追踪具有极其重要的现实意义和紧迫性。 1.2 研究内容与目标在新闻话题发现的研究中，信息的实时性和明确性是最关键的因素。其中，新闻聚类算法是核心技术，它能够将海量的新闻数据按照主题进行分类，帮助用户快速定位到感兴趣的话题。本论文主要关注两个关键技术：增量聚类算法和机器翻译技术，以提高新闻话题分析的准确性和客观性。 1.3 增量聚类算法传统的聚类算法在处理大规模数据时效率较低，而增量聚类算法则能够在数据流中动态地添加或删除数据点，保持聚类结果的稳定性。本论文针对这一问题，改进了传统的一次性通过的增量聚类算法，旨在提高其在聚类精度和召回率上的表现。 1.4 机器翻译技术的应用为了解决国内新闻网站与国外新闻报道之间的语言障碍，本研究结合了机器翻译技术，将国内新闻站点的聚类结果与海外新闻研究相结合，以增强新闻话题的客观性和说服力。第二章中文分词技术中文分词是新闻话题发现的基础，本文在获取各新闻门户站点的报道后，首先进行中文分词处理，以使后续步骤更加顺畅。对传统的分词方法进行了改进，提高了分词的准确性和适应性，以适应新闻语料的特性。第三章增量聚类算法的优化本章详细探讨了如何优化增量聚类算法，以适应新闻数据的实时性和动态性。通过对算法的调整和改进，提高了聚类过程的效率和结果的质量，确保了热点话题能被及时准确地发现。第四章结合机器翻译的新闻话题分析介绍了如何利用机器翻译技术来跨越语言壁垒，将国内外新闻信息有效地整合在一起，以提供更全面、客观的新闻话题分析结果。第五章实验与结果分析本章展示了实验设计、实施过程以及结果分析。通过对比实验，验证了所提出的改进算法在新闻话题发现中的优越性能。第六章结论与展望总结了全文的研究成果，并对未来的研究方向和可能的改进点进行了展望，强调了该研究对于新闻领域和大数据分析的重要贡献。关键词：话题检测，中文分词，增量聚类，机器翻译

资源推荐

资源详情

资源评论

ABSTRACT

With the rapid development of Internet technology, Internet has established itself

as the fourth largest media dominance, become the major carrier of releasing

information, getting information and transporting information to the public. Due to

timeliness and universality of news reports, news portals have become its vanguard of

news report. In addition, the point of view and quantity of the news reports also can

reflects current public opinion and the main social contradiction to a certain extent.

Therefore, it is vital and urgent to do research on discovering hot topics on Internet

and study how to find that. It has been found that in finding news topic research,

timeliness and definiteness of network information are the most important aspects.

The core technology is clustering algorithm used on news topics. Considering

clustering algorithm accuracy and objectiveness of analysis, this paper studies two

key technologies which are incremental clustering algorithm and machine translation

for real practical meaning.

This paper mainly includes three aspects. The first one is doing Chinese Word

Segmentation after getting reports on each portal news sites, aiming to make the

segmentation more suitable for next steps. This paper improves the traditional

segmentation methods, obtaining accurate and adaptive results. The second aspect is

improved traditional single-pass incremental clustering algorithm on accuracy and

recall rate of clustering, which is the focus of this article. The third one is improved

the objectivity and persuasive of news topic through combining news information

clustering results from present domestic news sites with machine translation

technology and overseas research on news report.

keywords： Topic Detection, Chinese Word Segmentation, Incremental Clustering,

Machine Translation

第一章绪论.................................................................................................................. 1

1.1 课题研究的背景和意义.................................................................................. 1

1.2 国内外研究现状.............................................................................................. 2

1.3 现有的话题发现系统存在的问题.................................................................. 3

1.4 本文的研究内容和组织结构.......................................................................... 4

1.4.1 本文的研究内容.................................................................................... 4

1.4.2 本文的组织结构.................................................................................... 5

第二章论文的相关工作.............................................................................................. 6

2.1 文本预处理...................................................................................................... 6

2.1.1 中文分词................................................................................................ 6

2.1.2 去停用词................................................................................................ 7

2.2 文本特征表示与相似度计算.......................................................................... 7

2.2.1 文本特征表示........................................................................................ 7

2.2.2 相似度计算............................................................................................ 8

2.3 聚类算法.......................................................................................................... 8

2.3.1 层次聚类算法........................................................................................ 8

2.3.2 划分式聚类算法.................................................................................... 9

2.3.3 基于密度的方法.................................................................................... 9

2.3.4 基于网格的方法.................................................................................... 9

2.4 机器翻译.......................................................................................................... 9

第三章改进的增量聚类算法的实现........................................................................ 11

3.1 CRF 分词的改进实现 .................................................................................... 11

3.1.1 CRF 分词存在的问题 .......................................................................... 11

3.1.2 实验过程与结果.................................................................................. 13

3.1.3 改进分词的意义.................................................................................. 14

3.2 传统增量聚类算法的设计............................................................................ 14

3.2.1 文本向量化.......................................................................................... 14

3.2.2 传统增量聚类算法设计...................................................................... 16

3.2.3 传统增量聚类算法不足...................................................................... 17

3.3 改进的增量聚类算法设计............................................................................ 18

3.3.1 改进算法概述...................................................................................... 18

3.3.2 具有更新选择器的增量聚类算法设计与意义.................................. 19

3.3.3 引入待排队列的增量聚类算法设计与意义...................................... 20

3.3.4 ICCQ 算法设计 .................................................................................... 22

3.4 实验结果与分析............................................................................................. 23

3.4.1 数据来源.............................................................................................. 23

3.4.2 实验过程.............................................................................................. 23

3.4.3 评价指标.............................................................................................. 24

3.4.4 实验结果.............................................................................................. 24

3.4.5 结果分析.............................................................................................. 26

3.4.6 实验小结.............................................................................................. 26

第四章 ICCQ 结合机器翻译的应用 ......................................................................... 28

4.1 ICCQ 结合机器翻译应用概述 ...................................................................... 28

4.2 统计机器翻译模型........................................................................................ 29

4.3 实验过程与环境搭建.................................................................................... 32

4.3.1 NiuTrans 开源翻译系统介绍 ............................................................... 32

4.3.2 实验的环境搭建.................................................................................. 32

4.3.3 实验的方法与流程.............................................................................. 33

4.4 实验结果........................................................................................................ 34

4.5 结果分析........................................................................................................ 37

第五章总结与展望.................................................................................................... 39

5.1 本文所解决的问题........................................................................................ 39

5.2 不足之处........................................................................................................ 39

5.3 展望................................................................................................................ 40

参考文献...................................................................................................................... 41

发表文献和科研情况说明.......................................................................................... 47

致谢...................................................................................................................... 48

第一章绪论

1.1 课题研究的背景和意义

随着互联网技术的迅猛发展，网络信息量正在以指数级速度迅速增长，网络

已经成为公众获取信息的主要来源。信息匮乏的窘境不仅不复存在；反之，信息

量过载则成为当前严重的问题。如何从浩如烟海的信息中发现有效的信息成为亟

待解决的首要问题。互联网所传播的各类信息中，新闻信息又是十分重要且信息

量极大的一类信息。中国互联网络信息中心发布的第 34 次中国互联网络发展状

况统计报告显示，截至 2014 年 6 月，我国网民规模已达 6.32 亿，其中网络新闻

用户规模为 50316 万

[1]

。

当一个热点事件发生时，不同的新闻网站会根据自己的观点发布不同的新闻

信息，而我国新闻网站数量众多，发布的新闻信息量将远远超出一个人吸收和理

解信息的能力。传统的搜索引擎虽然可以在一定程度上缓解新闻信息过载的问题，

但搜索引擎在处理新闻信息的过程中仍有自己的局限性。面对海量的新闻信息，

我国数量庞大的网民迫切需要一种新闻处理技术可以让他们快速了解每天发生

的热点事件以及相关的新闻报道。热点话题检测技术的出现，恰好能够帮助人们

解决新闻信息过载的问题，通过使用数据挖掘技术对各类新闻网站每天发布的新

闻信息进行处理，可以使网络新闻用户快速了解当前的新闻热点以及焦点。

热点话题检测技术是话题检测与跟踪（Topic Detection and Tracking，TDT)

[2]

的主要任务之一，TDT 是研究如何将新闻信息有效地组织起来以方便新闻用户

的技术，其涉及的信息处理对象包括网络信息、电视广播信息、无线电广播信息

等，通过将信息以热点的形式划分和组织起来，以达到帮助人们解决信息过载问

题的目的

[3]

。话题检测与跟踪技术的应用非常广泛，目前已被应用于各个领域，

如网络舆情信息监控、互联网金融分析、网络论坛信息监控和网络信息安全等，

这种技术可以搜集来自各个信息源的信息，通过数据挖掘技术对搜集到的信息进

行分析处理之后可以形成热点话题和找出突发事件，帮助网络新闻用户解决信息

过载问题，为互联网监管部门的安全决策提供信息依据，有利于推动社会的长足

发展和进步。

第一章绪论

1.2 国内外研究现状

话题检测最早出现在话题检测与跟踪领域，两者采用的是相同的技术。TDT

是由美国国防部高级研究规划署（Advanced Research Project Agency，ARPA）和

国家标准技术局（NIST）于 1996 年发起研究的一项新技术，其目的是提取各类

信息进行分类整理以提取热点信息，从而帮助人们解决信息过载问题。NIST 为

TDT 设立了五项基础性的研究任务，包括面向新闻广播类报道的切分任务、面

向已知话题的跟踪任务、面向未知话题的检测任务、对未知话题首次相关报道的

检测任务和报道间相关性的检测任务

[3]

。经过几年的研究与发展，TDT2004 对

TDT 研究的任务重新做修订和补充，TDT2004 确立的 TDT 最新的研究任务包括：

新事件检测、报道关系检测、话题检测、话题跟踪、自适应话题跟踪以及层次话

题跟踪

[4]

。TDT2004 对各个任务的具体定义如下：（1）新事件检测：要求检测

系统能够针对具备时间顺序的新闻语料及时地检测出最新发生的事件；（2）报

道关系检测：判断语料中的两篇新闻报道是否属于同一新闻话题；（3）话题检

测：将关于同一话题的新闻报道聚集起来形成新话题；（4）话题跟踪：对于某

个检测系统已经确定的话题，判断后续加入的新闻报道是否属于检测系统已确定

的话题；（5）自适应话题跟踪：具备自适应学习能力能够根据学习能力自动追

踪话题；（6）层次话题检测：层次话题检测是话题检测的扩展，在层次话题检

测中一篇新闻报道可以归属于多个新闻话题，一个新闻话题也可包含多个子话题。

国外 TDT 研究起步比国内早，是由美国于 1997 年首先发起的，当时 CMU

等一流大学的众多知名学者参与其中，对 TDT 研究取得了初步成果，获取了宝

贵的经验。目前，包括 CMU、UMass、Cambridge 等在内的一流大学以及 IBM

等公司在 TDT 的评测中已经取得很好的成绩。TDT 研究任务主要集中在三个方

面：新闻报道切分、新事件检测、事件跟踪

[2]

之后，随着科研人员对 TDT 研究

的不断深入，多种新方法新技术不断被应用到 TDT 中来，TDT 的研究领域不断

被拓宽。在话题检测方面，CMU 的科研人员最先探究了用凝聚层次聚类的方法

进行在线热点话题检测，凝聚层次聚类方法虽然实验结果比单一路径聚类略差，

但却为话题检测提供了新的思路

[5]

。在随后的研究过程中，以 Single-Pass 为主的

凝聚层次聚类算法和文本特征提取与表示方法受到研究人员的重视，被研究人员

不断改进从而提出效果更优秀的新方法。

Khoo 等人提出了一种词频-逆文档频率（Term Frequency–Inverse Document

Frequency，TF*IDF）算法用以提取文本特征并开发了一套信息处理系统可以从

新闻报道中提取主要的热点话题，实验结果表明基于 TF*IDF 的信息处理系统在

热点话题检测应用中效果明显

[6]

。Kumaran 和 Allan 将自然语言处理技术应用于

剩余47页未读，继续阅读

评论收藏

内容反馈

版权申诉

programyp

粉丝: 90
资源: 9323

计算机研究 -基于增量聚类的新闻话题发现研究.pdf

最新资源

计算机研究 -基于增量聚类的新闻话题发现研究.pdf

计算机研究 -基于聚类的入侵检测方法研究.pdf

计算机研究 -基于程序聚类的软件缺陷预测方法研究.pdf

计算机研究 -基于聚类分析的纹理图像分割研究.pdf

计算机研究 -基于模糊聚类的图像分割算法研究.pdf

计算机研究 -基于模糊聚类分析的图像分割技术研究.pdf

计算机研究 -一种层次聚类的簇确认方法研究.pdf

计算机研究 -一种基于数据聚类的信息粒化方法.pdf

计算机研究 -时间序列与聚类挖掘相关技术研究.pdf

计算机研究 -密度峰值聚类技术的研究与改进.pdf

计算机研究 -基于模糊聚类的云任务调度优化策略研究.pdf

计算机研究 -中文文本聚类算法的研究与实现.pdf

计算机研究 -中文文本聚类算法分析与研究.pdf

论文研究-动态增量聚类的设计与实现.pdf

计算机研究 -基于谱聚类的SAR图像变化检测.pdf

计算机研究 -基于聚类中心选取的聚类算法的研究.pdf

论文研究-基于兴趣聚类的网格资源发现算法.pdf

计算机研究 -数据流聚类中若干问题的研究.pdf

计算机研究 -数据挖掘中聚类问题的研究.pdf

计算机研究 -基于网格和密度的并行聚类算法的研究与实现.pdf

计算机研究 -基于程序聚类的软件模块化质量演化监控技术研究.pdf

计算机研究 -基于模式聚类的道路检测方法研究及传输接口的硬件实现.pdf

论文研究-基于k-means聚类算法的研究 .pdf

计算机网络技术在新闻媒体传播中的应用.pdf

计算机研究 -基于在线聚类和最小二乘支持向量机的模糊建模方法研究.pdf

计算新闻学分析笔记-研究论文

计算机技术在新闻广电节目制作中的应用.docx

最新资源