没有合适的资源?快使用搜索试试~ 我知道了~
Nutch,第1部分:爬行(译文)
需积分: 3 13 下载量 166 浏览量
2012-07-27
14:25:50
上传
评论
收藏 131KB DOCX 举报
温馨提示
( Nutch,第1部分:爬行(译文) ( Nutch,第1部分:爬行(译文)
资源推荐
资源详情
资源评论
Nutch
的 是
开源 Java 实现的搜索引擎。 它提供了
所有的工具,你需要运行自己的搜索引擎。 但为什么会
有人想运行自己的搜索引擎? 毕竟,还有
总是谷歌。 有至少有三个原因。
1. 透明度 。 Nutch 是开源的,所以任何人都可以看到
排名算法的工作。 随着商业的搜索引擎,
算法的精确的细节是秘密的,所以你永远无法知道
为什么一个特定的搜索结果排名,因为它是。 此外,
一些搜索引擎允许要支付的基础上的排名,而
比对相关网站的内容。 Nutch 是一个不错的选择
学术和政府机构,其中感知
公平的排名可能更重要。
2. 理解 。 我们没有谷歌的源代码,
Nutch 是可能是最好的我们。 这是有趣的,看看如何
一个大型的搜索引擎工作。 Nutch 的已建成使用的想法
学术界和工业界的:例如,Nutch 的核心部分是
目前正在重新实现,使用的“ http://labs.google.com/papers/mapred
uce.html”> 地图缩小
分布式处理模式,从谷歌实验室最后出现
一年。 和 Nutch 是有吸引力的研究人员想尝试
新的搜索算法,因为它是如此易于扩展。
3. 可扩展性 。 不喜欢的方式与其他搜索引擎
显示其结果? 写自己的搜索引擎 - 使用 Nutch 的!
Nutch 是非常灵活的:它可以自定义,并纳入
您的应用程序。 对于开发商来说,Nutch 是一个伟大的平台
搜索到的异构信息集合,
能够自定义搜索界面,或延长
盒外的功能,通过插件机制。 为
例如,你可以融入您的网站添加一个搜索
能力。
Nutch 的安装通常工作在三个尺度之一:
本地文件系统,
Intranet 或
整个网络
。 所有
三个有不同的特点。 例如,爬
本地文件系统是可靠的,相比其他两个,因为
不发生网络错误的网页内容缓存副本
是不必要的(实际上是一种浪费的磁盘空间)。 全网
在另一个极端在于爬行。 网页抓取数十亿
创建一个工程问题一大堆有待解决:
页,我们开始? 怎么办我们分区之间的一组工作
爬虫? 我们多久重新爬? 我们如何应对与破
链接,反应迟钝的网站,和难以理解的或重复的内容?
还有另一种挑战,解决提供可扩展
搜索 - 我们该如何应对等数百个并发查询
一个大型的数据集? 建立一个整体的网络搜索引擎是一个重大的
投资。 在“ “ http://www.acmqueue.com/modules.php?
name=Content&pa=showpage&pid=144”>
大厦
Nutch
的开源搜索 “作者麦克 Cafarella 和
道格切割(Nutch 的背后的主要推动者)得出这样的结论:
... 一个完整的系统可以随时随地花费 800 美元之间
每月为两个搜索每秒超过 100 万的性能
页,每月$ 30,000,性能超过每秒 50 页
1 亿个网页。
这一系列的两篇文章,告诉您如何使用 Nutch 的
较为温和的 Intranet 规模(请注意,您可能会看到这个词是
用于支付实际上是在公共互联网上的网站 -
点是大小抓取正在进行,范围从
一个站点到几万,或可能数百个站点)。 这首
本文主要对
爬行
:架构
Nutch 的爬虫,如何运行一个抓取和理解是什么
产生。 第二
,
并告诉您如何
运行 Nutch 的搜索应用程序,定制的方式,和
考虑运行一个真正的世界体系。
Nutch 的 VS。 Lucene 的
Nutch 是建立在 Lucene 的顶端,这是一个 API 文本
索引和搜索。 一个常见的问题是:“我应该使用 Lucene
或 Nutch 的吗?“答案很简单,你应该使用 Lucene,如果你
不需要网络爬虫。 一种常见的情况是,你有一个网站
前端,你想搜索到一个数据库。 最好
办法做到这一点,是指数从数据库中的数据直接
使用 Lucene 的 API,然后编写代码对做搜索
指数,再次使用 Lucene。 埃里克·哈彻和奥的斯 Gospodnetić
Lucene
的中
行动给所有的细节。 Nutch 是一个更适合的网站
你没有直接访问底层数据,或
来自不同来源。
建筑
Nutch 的划分自然分为两部分:履带式和
搜索者。 爬虫抓取的网页变成一个倒
索引,搜索者使用,回答用户的搜索查询。 “
两部分之间的接口是索引,所以除了从
大约在指数领域的协议,这两个高度
脱钩。 (实际上,它是比这更复杂一点,
因为网页内容不存储在索引中,所以搜索
以生产需要访问下面描述段
页摘要,并提供访问缓存的网页。)
从这个设计的主要实际剥离的是,履带式
和搜索器系统可以在不同的独立缩放
硬件平台。 举例来说,一个高度贩卖的搜索页面
提供寻找相对温和的网站可能只
需要一个相对温和的履带投资
基础设施建设,同时要求更多的资源
支持搜索者。
我们将在这里看看 Nutch 的爬虫,离开讨论
第二部分的搜索者。
履带
履带式系统是由 Nutch 的 crawl
工具,和家庭相关的工具来建立和维护
几种类型的
数据结构
,包括
网络
数据库
,
段
集,该
指数
。 我们
所有这些描述更详细的未来。
剩余26页未读,继续阅读
资源评论
dugusha123
- 粉丝: 0
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于Java和MySQL的学生信息管理系统.zip
- (源码)基于ASP.NET Core的零售供应链管理系统.zip
- (源码)基于PythonSpleeter的戏曲音频处理系统.zip
- (源码)基于Spring Boot的监控与日志管理系统.zip
- (源码)基于C++的Unix V6++二级文件系统.zip
- (源码)基于Spring Boot和JPA的皮皮虾图片收集系统.zip
- (源码)基于Arduino和Python的实时歌曲信息液晶显示屏展示系统.zip
- (源码)基于C++和C混合模式的操作系统开发项目.zip
- (源码)基于Arduino的全球天气监控系统.zip
- OpenCVForUnity2.6.0.unitypackage
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功