没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于网络爬虫技术的网络新闻分析 摘 要 自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。 利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋势,体现网络新闻数据的挖掘价值。 如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说价值是巨大的。 关键词:网络爬虫;网络新闻;数据挖掘
资源推荐
资源详情
资源评论

























I
基于网络爬虫技术的网络新闻分析
摘 要
自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘
的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、
曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。
利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,
并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋
势,体现网络新闻数据的挖掘价值。
如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的
收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网
络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说
价值是巨大的。
关键词:网络爬虫;网络新闻;数据挖掘

II
Netnews Analysis Based On Web Spider Technology
Abstract
Since the concept of the big data is put forword, data on the Internet became more and
more scientific research units for the object of data mining. Netnews data occupies half of
Internet data, compared with traditional media, it has spread rapidly, short exposure time and
contains the related characteristics of public opinion.
The related web spider technology and algorithm, to realize the Netnews automatic data
collection and structured storage, and summarizes some finishing, draw related news
development, reflect the value of Netnews data mining, is the main purpose of this paper.
If a business can choose news which related to their own and to do some professional
analysis, they can get many unexpected gains, for example, if there is someone behind
deliberately smear, or a competitors. First to master relevant negative effects of Netnews, the
use of public power, timely and correct mistakes, to calm the negative news, which is the
value of today’s enterprise is enormous.
Key words: web spider; Netnews; data mining

目 录
1 绪论..............................................................................................................................1
1.1 论文研究背景与意义...........................................................................................1
1.2 论文研究内容.........................................................................................................2
2 系统需求分析..............................................................................................................4
2.1 系统需求概述.........................................................................................................4
2.2 系统需求分析.........................................................................................................4
2.2.1 系统功能要求 ..................................................................................................4
2.2.2 系统 IPO 图......................................................................................................5
2.2 系统非功能性需求分析.........................................................................................5
3 系统概要设计.................................................................................................................7
3.1 设计约束.................................................................................................................7
3.1.1 需求约束 ...........................................................................................................7
3.1.2 设计策略 ...........................................................................................................7
3.1.3 技术实现 ..........................................................................................................8
3.3 模块结构.................................................................................................................8
3.3.1 模块结构图 ......................................................................................................8
3.3.2 系统层次图 ....................................................................................................10
3.3.3 面向对象设计 UML 图 .................................................................................10
4 系统详细设计..............................................................................................................13
4.1 系统模块设计.......................................................................................................13
4.1.1 数据采集模块 ................................................................................................13
4.1.2 中文分词模块 .................................................................................................18
4.1.3 相似度匹配模块 .............................................................................................22
4.1.4 数据展示模块 .................................................................................................25
4.2 系统异常处理............................................................................................................29
4.2.1 爬虫异常总体概况 .........................................................................................29
4.2.2 爬虫访问网页被拒绝 .....................................................................................29

5 软件测试......................................................................................................................32
5.1 白盒测试...............................................................................................................32
5.1.1 爬虫系统测试结果 ........................................................................................32
5.1.2 中文分词系统测试结果 ................................................................................33
5.1.3 中文文章相似度匹配系统测试结果 ............................................................34
5.1.4 相似新闻趋势展示系统测试结果 ................................................................36
5.2 黑盒测试................................................................................................................37
5.2.1 爬虫系统测试结果 ........................................................................................37
5.2.2 中文文章相似度匹配系统测试结果 ............................................................37
5.2.3 相似新闻趋势展示系统测试结果 ................................................................38
6 结 论........................................................................................................................40
参考文献..........................................................................................................................42
致 谢..............................................................................................................................43
外文资料..........................................................................................................................44
中文翻译..........................................................................................................................48

1
1 绪论
1.1 论文研究背景与意义
时至 2016 年,互联网大爆炸催生出了一系列新生的网络产物,如微博、微信、网
络新闻等,这些产物逐渐演化成了互联网时代的新兴媒体,以全新的方式承载了舆情与
舆论。网络新闻是由于某一时刻发生的新闻,首先被上传到互联网上,然后经过广大网
民的评论转发而广泛传播,其中包含了很多的重要而且有价值的信息,例如网民们的评
价倾向,人们对待某一事物的看法等等。时至今日,互联网信息产业三足鼎立的局面显
而易见,主要网络媒体新闻来源:新浪微博、微信公众号、网络媒体。
其中,最开始显现这一势头的是新浪微博,例如“郭美美事件”,经由个人发博文,
然后通过@一些网络推手或者微博大 V,使得相关信息传播如星星之火,借助于微博的
实时性,很快会形成燎原之势。正是因为微博拥有这些特征,很多正面或者负面新闻不
能通过传统媒体报道却能通过微博途径大肆传播。随着新浪微博的发展与推广,越来越
多的人喜欢将自己的生活“曝光”在微博上,例如心情状态、将来的计划、晒一晒生活、
晒一晒人生等等,无形中,微博对舆论分析的潜在价值不断上升。微博拉近了人们与新
闻、与热点的距离,但是它也带来了不可忽视的负面影响。针对微博谣言恶性化、舆论
暴力不断、侵权案件层见叠出等问题,完全可以变废为宝,提早掌握此类信息,提早整
改。然而,近两年新浪微博对爬虫的预防愈来愈加严格,以微博 api 为首的一批爬虫已
经跌倒,起因是新浪对相关微博 SDK 的 api 的封锁以及限制,故在本文中暂且抛弃了
新浪微博这一网络新闻诞生地。
再者,就是微信公众号,俗话说“十年河东十年河西”,随着互联网传媒的进一步
发展,更具有效率与价值的“新媒体”不断推出,在新浪微博如火如荼的情况下,微信
公众号平台悄悄地来临了,其发展速度与推广力度甚至超过了新浪微博。微信的公众号
与朋友圈功能深受广大媒体与网民们的欢迎,所以说,又有“新媒体”诞生了。横向对
比微信公众号的效力,如果其微信订阅人数超过一万,那俨然就相当于一本杂志了;如
果其微信订阅人数超过十万,那完全可以与地方性的报纸的影响力相媲美;但是一旦其
微信订阅用户数量达到了百万级,其影响力绝对不会低于电视台,令人震惊。如今,微
信订阅用户数量(即粉丝数量)达到百万级的公众号比比皆是,由大粉丝量的公众号推
剩余53页未读,继续阅读
资源评论


悠闲饭团
- 粉丝: 123
- 资源: 3028
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
