没有合适的资源?快使用搜索试试~ 我知道了~
大数据技术文件.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 96 浏览量
2022-07-12
15:44:00
上传
评论
收藏 687KB DOCX 举报
温馨提示
试读
59页
大数据技术文件.docx
资源推荐
资源详情
资源评论
第 1 章 绪论
随着计算机技术、通信网、互联网的迅速进展和日益普及,
Internet 上的信息量快速增长。从海量的信息块中快速检索出用户真
正需要的信息正变得专门困难,信息搜索应向着具有分布式处理能力方
向进展,本系统利用 hadoop 分布式开源框架良好的扩充能力、较低的
运作成本、较高的效率和稳定性来满足需求。
现状:
缺陷和不足:
(1)结果主题相关度不高。
(2)搜素速度慢。
引入 hadoop+nutch+solr 的优点:
(1)hadoop 平台数据处理高效。hadoop 集群处理数据比起单机节约数
倍的时刻,数据量越大优势越明显,满足信息采集对数据处理的速度和
质量要求。
(2)hadoop 平台具有高扩展性。能够适当扩展集群数量来满足日益不
断增加的数据量,而这并可不能毁坏原集群的特性。
(3)安全可靠性高。集群的数据冗余机制使得 hadoop 能从单点失效中
恢复,即 Hadoop 能自动进行数据的多次备份,以确保数据不丢失,即
使当某个服务器发生故障时,它也能重新部署计算任务。
(4) Nutch 不仅提供抓取网页的功能,还提供了解析网页、建立链接
数据库、对网页进行评分、建立 solr 索引等丰富的功能。
(5)通过 Nutch 插件机制实现了系统的可扩展性、灵活性和可维护性,
提高了开发效率。能够依照用户需求进行灵活定制抓取和解析,提高了
系统使用性。
(6)通过 solr 集群,采纳分布式索引在不同的机器上并行执行,实现
检索服务器之间的信息交换。能够通过设定主题进行索引检索。
研究目标和内容
本文的研究目标是全面深入分析研究分布式搜索引擎,进而优化分布式
搜索引擎中的索引构建策略,内容包括:
(1)深入研究 hadoop 分布式平台,认真剖析 hadoop 中的分布式文件
系统 HDFS 和 map/Reduce 编程模型。
(2)深入研究 Nutch 架构 、相关技术与体系结构,着重研究分析
Nutch 插件系统的内部结构和流程;对 protocol-httpclient 插件进行
开发支持表单登录;对 url 过滤、信息解析插件进行开发,提高搜索
的主题相关度;(实现用 mapreduce 的 google 的排序算法,改进系统
搜索的关联度)。
系统功能结构
(1)本地资源解析模块
对本地文本 pdf,word,excel 内容解析和索引,按照主题分类,添加到
相应的主题中进行搜素。
(2)搜索模块
用户依照不同主题进行内容索引、关键词查询,将跟查询关联度最高的
前 n 个文档返回给用户,并统计出在这些查询结果中出现频率最高的前
n 个词。用户可依照需求修改配置文件,提高搜索的相关度。
(3)信息爬取模块
① 信息定制采集模块
1、种子 URL:用作抓取器爬取的动身点,也叫做根 URL。
2、关键字:关键字的选择专门重要,描述了抓取任务的所属分类的主
题方向。
3、深度:由于 Nutch 抓取模块采纳的是广度优先的策略,抓取深度的
选择决定了抓取时刻的长度和抓取网页数量的大小。一般依照所选取的
种子 URL 的类型和详细程度以及对网页抓取规模的需求来进行设置。
在信息定制模块用户设置主题信息,url 信息、抓取深度的信息,抓
取线程依照定制信息,开始抓取工作。(综合型搜索引擎;某一主题类
网站,垂直搜索引擎;博客搜索引擎)
② 信息解析过滤模块
依照 fiddle 进行登录分析,修改网络协议插件,支持简单的一次跳转
表单登录,用户能够在配置文件中进行设置,然后抓取内容;复杂的登
陆需要分析登陆过程,写出相对应的网络协议插件。由于本系统在网络
资源采集过程中支持个性化定制,只对目标站点感兴趣的内容进行采集,
分析目标站点的结构特点,在页面采集完成后,从中提取出链接、元数
据、正文、标题、关键字、描述等信息,进行后续的过滤和其他处理。
链接的提取首先要推断页面类型,页面的类型能够有应答头分析得出,
依照不同的类型选择相应的爬取和解析插件,对遇到带有链接的标记如
<a>、<href>、<frame>等,就从标记结构的属性中找出 目标 url,并
从成对的该标记之间抽取出正文作为该链接的讲明文字,链接文字一般
能反映文章的主题信息,系统设定阈值,推断主题和讲明性文字的相关
性,对爬取链接进行过滤,加入到爬取链接列表中。定制采集的子模块,
依照正则表达式对网页内容进行过滤,猎取和处理跟主题相关的内容,
剩余58页未读,继续阅读
资源评论
m0_72067404
- 粉丝: 1
- 资源: 3981
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功