网络舆情监测设计方案(2).docx资源-CSDN文库

版权申诉

117 浏览量 2022-11-25 22:52:26 上传评论收藏 253KB DOCX 举报

资源详情

资源评论

精心整理

第一章项目的背景及必要性

1.1

项目背景

近年来，网络舆情对政治生活秩序和社会稳定的影响与日俱增，一些重大的网络舆情事件使

人们开始认识到网络对社会监督起到巨大作用。如“5.12”汶川特大地震中传统媒体与新媒体的充

分联动，又如“7.23”甬温线特别重大铁路交通事故中微博发挥的重要作用，再到 2012 年此起彼

伏的社会群体事件。

公共危机事件爆发时，犹如以石击水，相关信息在短时间内迅速传播，引起群众的广泛关注。

一些非理性议论、小道消息或负面报道常常在一定程度上激发人们普遍的危机感，甚至影响

到群众对党和政府的信任，影响到消费者对某一企业品牌的认同。如不及时采取正确的措施分析和

应对，会造成难以估计的后果。

随着互联网技术和应用的发展,网络舆情在数据体量、复杂性和产生速度等方面发生巨大变

化。网络舆情分析方法已超出了现有常用的分析框架,必须在大数据分析的思维下有所创新。

本项目主要利用网络爬虫技术和大数据技术的融合应用，建立基于贵州交通行业网络舆情监

测平台。通过网络爬虫技术对各大新闻门户网站、微博、知名论坛、贴吧、博客、搜索引擎等舆情

信息采集，充分使用大数据技术对采集到的网络舆情信息进行挖掘与分析。实现重大负面舆情信息、

突发事件实时预警，并根据舆情分布、影响力、发展趋势等进行分析和来源追踪。

1.2

项目的必要性

当前，网络舆情可以说是网络舆情管理的基础和晴雨表。以大数据观念变革传统网络舆情管

理思维，准确把握网络舆情的内在特征及其在演化过程中的潜在规律，对于新形势下做好网络舆情

管理工作具有重要的理论意义和实践价值。

因此，贵州交通行业应采取各种有效措施做好网络舆情的应对工作。增加信息透明度，准确、

及时地发布权威信息，使谣言破灭，从而有效引导舆论。建立权威专业的组织体系、加强互联网人

才队伍建设、采取适当的舆情引导与控制手段，是建立科学有效的舆情应对机制的必需。加强网络

舆情分析与研判工作，区分不同性质的涉及本行业负面舆情，可以正确的为相关部门提供决策参考。

善与媒体沟通，借助媒体传达贵州交通行业的声音，掌握舆论引导主动权。

第二章设计原则

2.1 全面性

对网络信息的获取要尽量做到全面，不漏掉有价值的舆情信息。需要监控的站点主要分布于

门户网站、知名论坛、搜索引擎、博客、贴吧，微博等网络载体中。

2.2 准确性

已经获取到的网络信息形形色色、要对信息做进一步筛选，将最焦点的、最常用的、最需要

的、最关注的舆情信息做相应的分类展示，方便下一步工作。

2.3 时效性

舆情信息的第一时间获取、第一时间分析、第一时间展示、第一时间预警。网络信息的一大

特点就是传播快，出现重大事件后，相关部门必须第一时间了解到相关情况，否则就会在整个事件

的处理上处于被动局面。

2.4 易维护性

整套解决方案的数据维护简单，容易操作，完全通过WEB 方式完成，采用云技术，降低维护

的技术难度，也减少了人为隐患的发生。

2.5 安全、稳定、准确、及时

精心整理

采用先进的算法，多个模块组成一个安全、稳定、准确、及时的网络舆情监测平台。方案在

总体设计上遵循稳定、开放、可扩展、经济、安全的原则，从而使整个方案组成合理，技术先进，

易于扩展，既能满足当前的业务数据处理要求，又能符合长期发展的需要。

第三章总体架构

3.1 总体概述

网络舆情监测平台采用 J2EE 技术体系，前端采用 Ajax 开发技术，操作简单、易用、高效、稳

定。平台所有功能均采用纯 B/S 结构设计，零客户端维护。

实时采集网络舆情信息，如门户网站、知名论坛、搜索引擎、博客、贴吧，微博等，7*24 小

时为用户提供信息采集、信息处理、信息编辑功能，实时掌握所关注的网络舆情信息，为贵州交通

行业相关部门提供决策参考依据。

3.2 业务流程

网络舆情监测平台是针对互联网这一新兴媒体，通过对海量网络舆情信息进行实时的自动采

集、分析、汇总、监视、并识别其中的关键信息，及时通知到相关人员，从而第一时间应急响应，

为正确舆论导向及收集民众意见提供直接支持的一套信息化平台。

第四章本项目涉及的关键技术

4.1 网络爬虫概念

网络爬虫又被称为网页蜘蛛、网络机器人，在FOAF 社区中间，更经常的称为网页追逐者，是

一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、

自动索引、模拟程序或者蠕虫。

4.1.1 网络爬虫工作原理

Web 网络爬虫系统一般会选择一些比较重要的、出度(网页中链出链接数)较大的网站的 URL

作为种子 URL 集合。网络爬虫系统将这些种子集合作为初始 URL，开始数据的抓取。由于网页中含

有链接信息，通过已有网页的 URL 会得到一些新的 URL，可以把网页之间的指向视为一个森林，每

个种子 URL 对应的网页是森林中的一棵树的根节点。

这样，Web 网络爬虫系统就可以根据先广搜索算法或者先深搜索算法遍历所有的网页。由于

先深搜索算法可能会使爬虫系统陷入一个网站内部，不利于搜索比较靠近网站首页的网页信息，因

此一般采用先广搜索算法采集网页。Web 网络爬虫系统首先将种子 URL 放入下载队列，然后简单地

从队首取出一个 URL 下载其对应的网页。得到网页的内容将其存储后，再经过解析网页中的链接信

息可以得到一些新的 URL，将这些 URL 加入下载队列。然后再取出一个 URL，对其对应的网页进行

下载，然后再解析，如此反复进行，知道遍历了整个网络或者满足某种条件后才会停止下来。

4.2 云计算技术

分布式计算是解决海量数据挖掘任务，提高海量数据挖掘的有效手段之一，在理论和实践上

已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的内容，而云计算平台提供了分

布式文件存储和并行的计算能力，因此很好地解决了这两个层面的内容。

下面主要分析几个主流的分布式文件系统和分布式并行计算框架，以更好地构建云计算数据

挖掘平台的核心支撑能力。

分布式文件系统有效地解决了海量数据存储问题，并实现了位置透明、移动透明、性能透明、

扩展透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有 Google 文

件系统(GFS)、分布式文件系统(HDFS)、文件系统(KFS)，这 3 种分布式文件系统都是基于 Google

提出的分布式文件系统理论进行研发的。Google 提出的 GFS 就是解决其海量数据存储和搜索、分

析等问题，而和 KFS 是基于 GFS 理论基础上实现的开源系统，并且在商业和学术领域得到了广泛的

应用。

分布式并行计算框架对于高效完成数据挖掘计算任务极其重要，并且它对分布式计算的一些

技术细节进行了封装，例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等，

使用户不需要考虑这些细节，而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率，还可

以降低系统维护的成本。目前典型的分布式计算框架有：

精心整理

MapReduce 是提出的一个并行计算框架，它可以在大量 PC 机上并行执行海量数据的收集和分

析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决

方案编码，并封装在了一个库里面，使用户只需要执行数据运算即可，而不必关心并行计算、容错、

数据分布、负载均衡等复杂的细节。同时它又对上层应用提供良好简单的抽象接口。MapReduce 主

要应用在搜索、数据仓库、数据挖掘领域。

Pregel 是 Google 提出的迭代处理计算框架，它具有高效、可扩展和容错的特性，并隐藏了

分布式相关的细节，展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框

架。Pregel 的主要应用场景是大型的图计算，例如交通线路、疾病爆发路径、WEB 搜索等相关领域。

Dryad 是微软硅谷研究院创建的研究项目，主要用来提供一个基于 Windows 操作系统的分布

式计算平台，总体用来支持有向无环图类型数据流的并行程序。微软于年宣布，停止对 Dryad 进行

版本升级，转投 Hadoop 即 MapReduce 计算框架。

目前业界开源的云计算平台包含 HDFS 和 MapReduce，为海量数据挖掘平台提供完备的云计算

支撑平台。

4.3 舆情智能分析技术

1）自动分类技术

基于内容对经过双重过滤处理后的重要舆情自动分类，无需人工干预，准确率达到 95%以上。

先设置分类关键词，每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析，

分别对标题和内容进行匹配，统计匹配的次数，然后根据设定好的关键字匹配模型对每个关键字进

行分值计算。分值超过一定分值的都将自动处理所对应的处理，匹配分值最高的关键字就自动分类。

2）自动聚类技术

基于相似性算法的自动聚类技术，自动对海量的无规则文档进行归类，把内容相近的文档归

为一类，并自动为其生成主题词，为确定类目名称提供方便。

3）相似性排重技术

采用“文章相似性技术”根据文档内容的匹配程度确定是否重复，比利用网页标题和大小等

规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算，得

出文章相似度，相似度高于 0.75 以上的文章系统默认处理为“已处理”，无需再进行任何操作，相

似度位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认，确保文章无漏处理。

4.4 自然语言智能处理技术

1）自动分词技术

以词典为基础，规则与统计相结合的分词技术，有效解决切分歧义。综合运用基于概率统计

的语言模型方法，分词准确性达到 99%。

2）自动关键词和自动摘要技术

对采集到的网络信息，自动摘取相关关键字，并生成摘要，并与快速浏览与检索。

3）全文检索技术

全文检索将传统的全文检索技术与最新的 WEB 搜索技术相结合，大大提升检索引擎的性能指

标。还融合多种技术，提供丰富的检索手段以及同义词等智能检索方式。

4.5 网络舆情处理流程

网络舆情监测主要由网络数据采集、数据处理、舆情分析与报告三大部分构成。舆情信息采

集对象主要以新闻门户网站、微博、论坛、博客、贴吧等，从海量的网页中采集数据为舆情分析提

供基础数据。

第五章方案设计

5.1 平台实现的主要功能

1. 数据采集：根据用户设置的信息源对数据进行采集。

2. 数据处理：

1) 信息预处理：去除网页中的广告、图片、链接等无价值、无需关注的信息。并自动识别标

题、来源、作者、发布时间、正文等信息。

剩余12页未读，继续阅读

评论收藏

内容反馈

版权申诉

网络舆情监测设计方案 (2).docx

评论0

最新资源

网络舆情监测设计方案 (2).docx

评论0

最新资源

相关推荐

网络舆情监测设计方案.docx

网络舆情监测方案设计.docx

网络舆情监测设计方案.doc

网络舆情监测系统建设方案.docx

基于STM32与LABVIEW的环境监测系统设计方案.docx

舆情监测系统建设方案.docx

卢松松：网络舆情监测成热门产业.docx

网络舆情监测系统方案建议书.docx

网络舆情监测设计方案 (2).pdf

网络舆情监控.docx

网络舆情监测设计方案.pdf

基于大数据的网络舆情监控系统设计探析.docx

基于SpringCloud-微服务系统设计解决方案.docx.docx

网站搜索设计方案兼顾SEO及可用性网站设计方案心得.docx

基于单片机的室内环境智能监测系统设计说明.docx

大棚温室环境监测系统设计方案.docx

网络舆情监测系统.docx

乐思网络舆情监测系统.docx

高校网络舆情的监测与引导

网络舆情监测预警机制.docx

旅游景区网络舆情大数据分析方案.docx

电子政务外网云平台方案设计分析.docx.docx

基于AT89C51的水质监测系统的设计.docx

互联网时代企业网络舆情的监测与应对.docx

基于单片机的仓库温度监测系统设计方案.docx