没有合适的资源?快使用搜索试试~ 我知道了~
基于Python的舆情监测系统设计 (2).docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 34 浏览量
2023-03-10
20:30:34
上传
评论
收藏 763KB DOCX 举报
温馨提示
试读
31页
。
资源推荐
资源详情
资源评论
基 于 Python 的 舆 情 监 测 系 统 设 计
摘 要
随着各种网络社交媒体的日益发展与推广以及云计算、大数据技术的发展,通过挖
掘获取社交大数据并进行数据分析来及时检测当前舆论动向及事态成为了当前学术界、
工业界重点关注的技术之一。数据采集、数据分析以及可视化展示都是舆情监测系统的
关键环节。本文通过实现数据采集模块、数据分析模块和数据可视化模块来实现舆情监
测,来实现对社交网络的舆情监控。本文主要内容包括一下几点:
首先,数据采集模块相关技术的介绍。本文介绍了通过自动获取网页内容的程序来
实现对网页信息的采集;通过改写网页数据请求头( request head)中的 User-Agent、
Referer 及 Cookie 来实现网络数据的连续采集;并通过正则表达式和将 HTML 文档转换
成一个树形结构的方法来实现网页数据的定位及获取。同时研究了 XML 及 JSON 页面
分析技术和非关系型数据库(MongoDB)等数据采集存储技术。
再次,通过对获取的文本信息进行分词处理,提取高频词汇及其他信息来实现对数
据的分析;通过利用文本信息时间来实现对舆情状况的中长期分析。
最后,通过搭建 web 网络框架,来建立网络服务器。除此之外通过 html、Echart
及 JQuery 等网络前端技术来实现数据的可视化展示。
关键词:
数据采集;非关系型数据库;正则表达式;Flask;HTML
Abstract
With the increasing development and promotion of various network social media, as well
as the development of cloud computing and big data technology, it has become one of the key
technologies that the academia and industry focus on to timely detect the current trend of
public opinion and events by mining social big data and conducting data analysis. Data
collection, data analysis and visual display are the key links of public opinion monitoring
system. This paper realizes public opinion monitoring by implementing data acquisition
module, data analysis module and data visualization module, and realizes public opinion
monitoring on social network. The main content of this paper includes the following points:
First, the introduction of data acquisition module related technology. This paper
introduces the program of automatically acquiring web content to realize the collection of web
information. The user-agent, Referer and Cookie in the request head are overwritten to realize
the continuous collection of network data. And through regular expression and HTML
document into a tree structure method to achieve the location and acquisition of web data. At
the same time, XML and JSON page analysis technology and non-relational database
(MongoDB) data acquisition and storage technology are studied.
Thirdly, the obtained text information is processed by word segmentation, and
high-frequency words and other information are extracted to realize data analysis. Through
the use of text information time to achieve medium and long term analysis of public opinion.
Finally, the network server is established by setting up the web network framework. In
addition, HTML, Echart, JQuery and other network front-end technologies are used to realize
the visual display of data.
Key words:
Data Acquisition;Not Structured Query Language ; Regular
Expression; Flask ;HTML
目 录
第 1 章 绪论
.........................................................
0
1.1 课题背景及意义 .....................................0
1.2 课题研究现状与发展趋势 .............................0
1.3 国内外研究状况 .....................................0
1.4 研究内容 ...........................................1
1.5 预期结果和意义 .....................................1
第 2 章 相关技术介绍
...............................................
3
2.1 社交网络数据采集 ....................................3
2.1.1 网络爬虫原理 ......................................3
2.1.2 爬虫的逻辑结构 ....................................4
2.1.3 网络爬虫技术 ......................................4
2.1.4 非关系型数据库 ....................................5
2.2 数据分析 ............................................6
2.2.1 词云介绍 ..........................................6
2.2.2 数据清洗 ..........................................6
2.3 数据可视化 ..........................................7
2.3.1 ECharts 技术 ......................................7
2.3.2 Flask 技术 ........................................7
2.4 本章小结 ............................................8
第 3 章 舆情监测系统设计
...........................................
9
3.1 系统的需求分析 ......................................9
3.2 系统的框架设计 .....................................10
3.3 爬虫模块设计 .......................................11
3.3.1 贴吧爬虫设计 .....................................11
3.3.2 留言贴爬虫设计 ...................................12
3.4 数据库设计 .........................................13
3.5 本章小结 ...........................................14
第 4 章 舆情监测系统的实现
.......................................
15
4.1 系统开发环境 .......................................15
4.2 数据采集模块实现 ...................................15
4.3 数据存储功能实现 ..................................18
4.4 数据分析模块实现 ...................................18
4.4.1 词云实现 .........................................18
4.4.2 热度统计实现 .....................................20
4.5 数据可视化模块实现 ................................21
4.5.1 后端部分实现 ....................................21
4.5.2 前端模块 .........................................22
4.6 本章小结 ...........................................22
结语
..............................................
错误!未定义书签。
附录
...............................................................
24
参考文献
25
..........................................................
致谢
..................................................................
第1章 绪论
1.1 课题背景及意义
舆情监测系统是基于 Python 语言编写的互联网舆情监测统计系统,相比于之
前的人工舆情统计分析形同,基于 Python 的舆情检测系统在工作范围、舆情监测
速度方面具有极大的提升。除此之外基于 Python 还具有误差概率小、全天候 24
小时不间断工作的特点。伴随计算机科学技术和互联网应用的高速发展,互联网
舆情监测系统也同样发展迅速飞快。基于网络的大数据舆情监测系统具有处理实
时性强、数据处理大的优点。该系统通过很细很多相同需求下的舆情监测的需求
而实现,拥有一部分的实际工程意义。
1.2 课题研究现状与发展趋势
网络舆情是指由各种不同的社会团体所组成的公众群体和舆论代表,在某些
特定的时间和空间或网络范围中,对自己关注的或与自身个体利益紧密相关的各
种社会实践政府中策或社会问题的具有一定影响力和导向性的公共群体大众的意
见的集合[1]。网络舆情监测系统则随着计算机科学及互联网的发展而普及开来,
通过特定网络数据采集程序来获取网络平台的舆论情况,并将所获取的网络数据
进行存储,以为之后的网络舆情数据分析来做好准备。在数据分析环节对所获取
的舆情数据进行内容分析或文本数据挖掘,以便获取舆论情况的相关特征。
伴随着对网络舆情监测方面的研究的进展逐渐加深,对于网络舆情方面的县
官的研究也不断的发展。网络舆情监测系统逐渐朝着大数据、实时性方面深入,
以及人工智能和人工神经网络的发展,舆情监测系统对与舆论情况的把握越来越
准确。舆情监测系统所表现出来的对舆论监测以及动态把握的功能和作用有日益
加强,甚至能通过对当前舆论情况的分析,而预测出未来一段时间内的舆论发展
方向和趋势。
1.3 国内外研究状况
国外对舆情及大数据研究主要在概念研究和技术研究上,其中重点在技术研
究。同时大部分的科学研究项目都集中在在对于大数据的影响及技术挑战上,相
较于数据科学,其更重视的数据处理技术在工程实践中的应用,主要分析研究的
剩余30页未读,继续阅读
资源评论
G11176593
- 粉丝: 6674
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功