没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端JavaNutch，第1部分：爬行（译文）

Nutch，第1部分：爬行（译文）

Nutch

需积分: 3 13 下载量 42 浏览量 2012-07-27 14:25:50 上传评论收藏 131KB DOCX 举报

温馨提示

试读

27页

( Nutch，第1部分：爬行（译文） ( Nutch，第1部分：爬行（译文）

资源推荐

资源详情

资源评论

Nutch

的是

开源 Java 实现的搜索引擎。它提供了

所有的工具，你需要运行自己的搜索引擎。但为什么会

有人想运行自己的搜索引擎？毕竟，还有

总是谷歌。有至少有三个原因。

1. 透明度。 Nutch 是开源的，所以任何人都可以看到

排名算法的工作。随着商业的搜索引擎，

算法的精确的细节是秘密的，所以你永远无法知道

为什么一个特定的搜索结果排名，因为它是。此外，

一些搜索引擎允许要支付的基础上的排名，而

比对相关网站的内容。 Nutch 是一个不错的选择

学术和政府机构，其中感知

公平的排名可能更重要。

2. 理解。我们没有谷歌的源代码，

Nutch 是可能是最好的我们。这是有趣的，看看如何

一个大型的搜索引擎工作。 Nutch 的已建成使用的想法

学术界和工业界的：例如，Nutch 的核心部分是

目前正在重新实现，使用的“ http://labs.google.com/papers/mapred

uce.html”> 地图缩小

分布式处理模式，从谷歌实验室最后出现

一年。和 Nutch 是有吸引力的研究人员想尝试

新的搜索算法，因为它是如此易于扩展。

3. 可扩展性。不喜欢的方式与其他搜索引擎

显示其结果？写自己的搜索引擎 - 使用 Nutch 的！

Nutch 是非常灵活的：它可以自定义，并纳入

您的应用程序。对于开发商来说，Nutch 是一个伟大的平台

搜索到的异构信息集合，

能够自定义搜索界面，或延长

盒外的功能，通过插件机制。为

例如，你可以融入您的网站添加一个搜索

能力。

Nutch 的安装通常工作在三个尺度之一：

本地文件系统，

Intranet 或

整个网络

。所有

三个有不同的特点。例如，爬

本地文件系统是可靠的，相比其他两个，因为

不发生网络错误的网页内容缓存副本

是不必要的（实际上是一种浪费的磁盘空间）。全网

在另一个极端在于爬行。网页抓取数十亿

创建一个工程问题一大堆有待解决：

页，我们开始？怎么办我们分区之间的一组工作

爬虫？我们多久重新爬？我们如何应对与破

链接，反应迟钝的网站，和难以理解的或重复的内容？

还有另一种挑战，解决提供可扩展

搜索 - 我们该如何应对等数百个并发查询

一个大型的数据集？建立一个整体的网络搜索引擎是一个重大的

投资。在“ “ http://www.acmqueue.com/modules.php?

name=Content&pa=showpage&pid=144”>

大厦

Nutch

的开源搜索 “作者麦克 Cafarella 和

道格切割（Nutch 的背后的主要推动者）得出这样的结论：

... 一个完整的系统可以随时随地花费 800 美元之间

每月为两个搜索每秒超过 100 万的性能

页，每月$ 30,000，性能超过每秒 50 页

1 亿个网页。

这一系列的两篇文章，告诉您如何使用 Nutch 的

较为温和的 Intranet 规模（请注意，您可能会看到这个词是

用于支付实际上是在公共互联网上的网站 -

点是大小抓取正在进行，范围从

一个站点到几万，或可能数百个站点）。这首

本文主要对

爬行

：架构

Nutch 的爬虫，如何运行一个抓取和理解是什么

产生。第二

，

并告诉您如何

运行 Nutch 的搜索应用程序，定制的方式，和

考虑运行一个真正的世界体系。

Nutch 的 VS。 Lucene 的

Nutch 是建立在 Lucene 的顶端，这是一个 API 文本

索引和搜索。一个常见的问题是：“我应该使用 Lucene

或 Nutch 的吗？“答案很简单，你应该使用 Lucene，如果你

不需要网络爬虫。一种常见的情况是，你有一个网站

前端，你想搜索到一个数据库。最好

办法做到这一点，是指数从数据库中的数据直接

使用 Lucene 的 API，然后编写代码对做搜索

指数，再次使用 Lucene。埃里克·哈彻和奥的斯 Gospodnetić

Lucene

的中

行动给所有的细节。 Nutch 是一个更适合的网站

你没有直接访问底层数据，或

来自不同来源。

建筑

Nutch 的划分自然分为两部分：履带式和

搜索者。爬虫抓取的网页变成一个倒

索引，搜索者使用，回答用户的搜索查询。 “

两部分之间的接口是索引，所以除了从

大约在指数领域的协议，这两个高度

脱钩。（实际上，它是比这更复杂一点，

因为网页内容不存储在索引中，所以搜索

以生产需要访问下面描述段

页摘要，并提供访问缓存的网页。）

从这个设计的主要实际剥离的是，履带式

和搜索器系统可以在不同的独立缩放

硬件平台。举例来说，一个高度贩卖的搜索页面

提供寻找相对温和的网站可能只

需要一个相对温和的履带投资

基础设施建设，同时要求更多的资源

支持搜索者。

我们将在这里看看 Nutch 的爬虫，离开讨论

第二部分的搜索者。

履带

履带式系统是由 Nutch 的 crawl

工具，和家庭相关的工具来建立和维护

几种类型的

数据结构

，包括

网络

数据库

，

段

集，该

指数

。我们

所有这些描述更详细的未来。

剩余26页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

dugusha123

粉丝: 0
资源: 5

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

Nutch，第1部分：爬行（译文）

nutch入门经典翻译1：Introduction to Nutch, Part 1: Crawling

lucene2.4+nutch学习笔记三：lucene 在多个文本文档里找出包含一些关键字的文档

nutch网页爬取总结

nutch入门.pdf

nutch爬虫系统分析设计论文.doc

Nutch2.3.1 环境搭建

apache-nutch-2.3-src.zip

nutch09版本亲测好用

nutch2.2.1-src

Linux下Nutch分布式配置和使用

开发基于 Nutch 的集群式搜索引擎

搭建nutch web开发环境

nutch开发资料 搜索引擎

关于Nutch的安装

nutch帮助文档；nutch学习 入门

nutch_1.4配置

nutch的安装方法，好用

nutch-0.9 环境搭建所需最小cygwin

nutch 初学文档教材

Nutch 0.8笔记NUTCHNUTCH

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

Windows下配置nutch

nutch部分网页乱码BUG修正

搭建nutch开发环境步骤

Notepad++安装包

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

最新资源

lucene2.4+nutch学习笔记三：lucene　在多个文本文档里找出包含一些关键字的文档

nutch开发资料搜索引擎

nutch帮助文档；nutch学习入门