精心整理
采用先进的算法,多个模块组成一个安全、稳定、准确、及时的网络舆情监测平台。方案在
总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组成合理,技术先进,
易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。
第三章 总体架构
网络舆情监测平台采用 J2EE 技术体系,前端采用 Ajax 开发技术,操作简单、易用、高效、稳
定。平台所有功能均采用纯 B/S 结构设计,零客户端维护。
实时采集网络舆情信息,如门户网站、知名论坛、搜索引擎、博客、贴吧,微博等,7*24 小
时为用户提供信息采集、信息处理、信息编辑功能,实时掌握所关注的网络舆情信息,为贵州交通
行业相关部门提供决策参考依据。
网络舆情监测平台是针对互联网这一新兴媒体,通过对海量网络舆情信息进行实时的自动采
集、分析、汇总、监视、并识别其中的关键信息,及时通知到相关人员,从而第一时间应急响应,
为正确舆论导向及收集民众意见提供直接支持的一套信息化平台。
网络爬虫又被称为网页蜘蛛、网络机器人,在FOAF 社区中间,更经常的称为网页追逐者,是
一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、
自动索引、模拟程序或者蠕虫。
Web 网络爬虫系统一般会选择一些比较重要的、出度(网页中链出链接数)较大的网站的 URL
作为种子 URL 集合。网络爬虫系统将这些种子集合作为初始 URL,开始数据的抓取。由于网页中含
有链接信息,通过已有网页的 URL 会得到一些新的 URL,可以把网页之间的指向视为一个森林,每
个种子 URL 对应的网页是森林中的一棵树的根节点。
这样,Web 网络爬虫系统就可以根据先广搜索算法或者先深搜索算法遍历所有的网页。由于
先深搜索算法可能会使爬虫系统陷入一个网站内部,不利于搜索比较靠近网站首页的网页信息,因
此一般采用先广搜索算法采集网页。Web 网络爬虫系统首先将种子 URL 放入下载队列,然后简单地
从队首取出一个 URL 下载其对应的网页。得到网页的内容将其存储后,再经过解析网页中的链接信
息可以得到一些新的 URL,将这些 URL 加入下载队列。然后再取出一个 URL,对其对应的网页进行
下载,然后再解析,如此反复进行,知道遍历了整个网络或者满足某种条件后才会停止下来。
4.2 云计算技术
分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上
已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的内容,而云计算平台提供了分
布式文件存储和并行的计算能力,因此很好地解决了这两个层面的内容。
下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据
挖掘平台的核心支撑能力。
分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、
扩展透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有 Google 文
件系统(GFS)、分布式文件系统(HDFS)、文件系统(KFS),这 3 种分布式文件系统都是基于 Google
提出的分布式文件系统理论进行研发的。Google 提出的 GFS 就是解决其海量数据存储和搜索、分
析等问题,而和 KFS 是基于 GFS 理论基础上实现的开源系统,并且在商业和学术领域得到了广泛的
应用。
分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些
技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,
使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率,还可
以降低系统维护的成本。目前典型的分布式计算框架有:
评论0
最新资源