nutch的源代码解析资源-CSDN文库

需积分: 10 71 浏览量 2014-07-12 20:39:50 上传评论收藏 468KB DOC 举报

Nutch 是一个开源的网络爬虫项目，它提供了构建搜索引擎的基础架构。Nutch 的源代码解析对于深入理解搜索引擎的工作原理以及自定义搜索引擎的实现非常有帮助。下面我们将详细探讨 Nutch 的注入（Injector）过程，这是整个爬取流程的第一步。 Injector 类在 Nutch 中的作用是将输入的 URL 集合并入到 CrawlDB（爬取数据库）中。这个过程主要包括三个主要步骤： 1. **URL 格式化和过滤**：Injector 会接收一个包含 URL 的文本文件，对这些 URL 进行标准化处理，去除非法或无效的 URL。URLNormalizers 类用于规范化 URL，确保它们符合标准格式。同时，URLFilters 类会过滤掉不符合规则或者重复的 URL，以防止无效数据进入系统。 2. **URL 合并**：在注入过程中，Injector 会检查 URL 是否已经存在于 CrawlDB 中。如果存在，那么旧的记录会被新的记录替换，以保持数据库的最新状态。这样可以避免重复爬取同一个 URL，提高效率。 3. **存储到 CrawlDB**：Injector 使用 Hadoop MapReduce 框架来处理这些 URL。每个 URL 与对应的 CrawlDatum（包含 URL 的状态和初始评分）被转化为 `<url, CrawlDatum>` 的键值对，然后写入到一个临时的 SequenceFile 中。SequenceFile 是 Hadoop 提供的一种二进制文件格式，适合存储键值对，尤其适用于大数据处理。在 MapReduce 的 `map` 函数中，InjectorMapper 类将输入的每行文本（一个 URL）转换为 `<url, CrawlDatum>` 对。CrawlDatum 是 Nutch 中的一个关键数据结构，它包含了 URL 的状态信息（如 UNFETCHED）、时间戳和其他相关数据。 `reduce` 阶段通常不涉及，因为在 Injector 的情况下，数据不需要进行聚合或减少操作。一旦 Map 阶段完成，生成的 SequenceFile 将被用来更新 CrawlDB。通过比较新生成的 URL 和现有数据库中的 URL，Hadoop 会自动处理冲突，确保数据的一致性。 Nutch 的 Injector 部分是整个爬取流程的起点，它负责将输入的 URL 数据转化为可处理的形式，并且初始化这些 URL 在 CrawlDB 中的状态，为后续的抓取、解析和索引等步骤做好准备。通过理解这个过程，开发者可以更好地定制 Nutch 以适应特定的项目需求，例如，添加自定义的 URL 规则或过滤器，或者优化数据处理性能。

资源推荐

资源详情

资源评论

Nutch 1.0 源代码分析［1］ Injector

　 21 MAR 2010 12:55:42 +0800

----------------------------------------------------------------------------



在  中的  函数中有一句是：





引用  李阳  ： 操作调用的是  的核心包之一  包中的类

。

 操作主要作用：

 将  集合进行格式化和过滤，消除其中的非法 ，并设定  状态

 按照一定方法进行初始化分值；

! 将  进行合并，消除重复的  入口；

" 将  及其状态、分值存入 #$ 数据库，与原数据库中重复的则删除旧

的，更换新的。

 操作结果：#$ 数据库内容得到更新，包括  及其状态。

看一下  调用的函数：

publicvoidthrows

产生一个文件名是随机的临时文件夹

 !new"#$"% & &%%%

'%( (%

'"toStringnew

)& "MAX_VALUE

 $+# ,$

产生+# ,-.(/ 对的文件

0#$10!new20"#$

10102 %%'

33 addInputPath10

1014#114class

33 setOutputPath10 

1013 5633 class

1017.#118class

1019#11# class

101:"% %

5.1 currentTimeMillis

0#runJob10

这里用的是 #% 的东西，输入文件目录为：用户指定的  目录。输出

目录为：产生的那个临时文件夹。这里的 &'(% 在

)#% *#+,-*$./中的解释为：0**0+ ***0*#

1****2*3*2*4***0*$4*4%1 *%*3*15**1$*2

#%51*&'*11*+1**$**1*1, *%-#0**%11*#

1*2*$4*.46-*%1，这里是用 % 函数产生) /对

的文件。

publicvoid ;# -.8/

#+8# ,)

throws

5"!/5"/1$

try

!2 1

 ):2 1SCOPE_INJECT

!$1$$

<catch

if=!null$111

/1

# & !new# # STATUS_INJECTED

/

& 138 8 

& 151&

try

1$1&5/& 

<catch5"3

/& 

71 是用于规范化 ，而 +1 用于过滤不合法的 。8% 输出

的 .4 是  而 - 是 ，这里设置它的几个成员变量的值：

privatebyte11

privatelong$8 !5.1 currentTimeMillis

privateint$/

privatefloat1!>?$

&01 是一个计算分数的类。

 函数的后一部分：

 "1"&

0#$ "0!#createJob"#$

33 addInputPath "0 

"01)&#11)&class

0#runJob "0

#install "0



35.1 $1!35.1 get"#$

$1& true

ifLOG1$&

LOG$%@&%

09$ 把刚才的临时目录当作输入目录，输出在 1 函数里处理，最

终删除那个临时目录。下面看一下 # 类：

AA#  1$A

publicstaticclass)&implements

)&+8# 8# ,

private# &!new# 

private# &!new# 

publicvoid&8-.+# ,/1

#+8  # ,    )



throws

boolean&5!false

while/112

# /!/1

if/"51!!# STATUS_INJECTED

&1/

&151# STATUS_DB_UNFETCHED

<else

&1/

&5!true

# 1!null

if&5

1!&&B/1"/

else

1!&

-.1

这里 # ， ) / 对，因为没有必要一个  关联着多个

，这里判断  的状态，如果它是 &:&;9，也就是新

被注入的，设置 # 值，如果是 &:&;<;，未被抓取的，就

设置 # 的值。这里要注意的一点是如果的确是注入的过，就将 1 设为 #，

否则才设为 #。

在 $ 类的 1 中：

public static void 10#$       throws



#!33 getOutputPath

35.1 $1!new0#"31

&!new%&%

!newCURRENT_NAME

if$111

if$111&

$1&&true

$1 &

$1 -&1

$1 #

if$111&

$1&&true

-!newLOCK_NAME

:-removeLockFile$1-

$ 大概是 &C>D>DE>ED ，而 &

是 &&， 是 &，如果有 ，就

将它重命为 &，再创建 ，再将它重命为 ，如果 & 是存在的，删除，如

果是有锁的，把锁删除。

Nutch 1.0 源代码分析［2］ Plugin(1)

　 21 MAR 2010 12:58:47 +0800

----------------------------------------------------------------------------

借着 71 看一下  的插件机制，在  类中的 +0

类中有一句是：

2 1!new):2 1

):2 1SCOPE_INJECT

它调用的是：

public):2 1#$"$5"1

this$!$

this1!")1.

get$"1):2 X_POINT_ID

##!#get$

 1!):2 FG#

"):2 X_POINT_ID'%H%'1

if 1!!null

 1!"):2 11

if 1!!48IH2)4J:K)5

 1!):2 FG#

"):2 X_POINT_ID'%H%

'SCOPE_DEFAULT

if 1!!null

 1!"):2 1SCOPE_DEFAULT

#!$"% %>

这里的 031= 是得到相应的扩展点，这里

7>;=(; 是 0%7，关于扩展点

可以看一下 <8 的技术文章《*插件系统浅析》，接下来先到缓存中去找，

如果没有找到就调用 071 ，如果

71??8=@;(8:A& 说明它应该在缓存里有，如果缓存里存的是

，就用默认的 7，而 % 是在规范化时指定要循环多少次的

一个值。071 代码如下：

):2 FG"):2 15"1

:1+1,11!"111

:1+):2 , 1!new

9+):2 ,111

+1,!11

while12

1!

):2  !null

try

 !):2 #

""&

if !!null

"&&1&

   !  ):2 

"11

#1"& 

 1&& 

<catch") 

剩余51页未读，继续阅读

评论收藏

内容反馈

wang23109203

粉丝: 2
资源: 7

nutch的源代码解析

nutch1.6源码

apache-nutch的源码

nutch-1.9 源码

nutch crawl代码解析

nutch-2.1源代码

nutch 1.5的源代码

nutch流程解析.doc

基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

lucene nutch 搜索引擎 开发 实例 源代码 源码

Lucene+nutch搜索引擎开发（源代码）

搭建nutch web开发环境

搭建nutch开发环境步骤

nutch使用&Nutch;入门教程

nutch-ajax:适用于AJAX的Apache Nutch插件页面获取，解析，索引

Lucene+nutch搜索引擎开发 源代码

mp3文件信息解析-nutch使用

lucene+nutch开发自己的搜索引擎一书源代码

工程硕士论文中用到的源代码

Lucene+Nutch搜索引擎开发.王学松源代码

nutch工具包

nutch爬虫资料

解决Nutch摘要问题

apache-nutch-1.6-src.tar.gz

java Nutch项目

Nutch相关框架视频教程 （1-20）(PDF)

nutch开发资料 搜索引擎

nutch网页爬取总结

nutch帮助文档；nutch学习 入门

Nutch+solr + hadoop相关框架搭建教程

nutch入门.pdf

最新资源

lucene nutch 搜索引擎开发实例源代码源码

Lucene+nutch搜索引擎开发源代码

Nutch相关框架视频教程（1-20）(PDF)

nutch开发资料搜索引擎

nutch帮助文档；nutch学习入门