nutch-analysis.rar_nutch资源-CSDN文库

共1个文件

docx：1个

版权申诉

150 浏览量 2022-09-23 11:11:13 上传评论收藏 472KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

nutch-analysis.rar （1个子文件）

nutch analysis.docx 506KB

1

nutch 爬虫流程分析

一．写在前面的话

“基于语义的搜索引擎开发”项目是在借助开源 nutch 的部分功能上来完成。而我

此次寒假中的任务正阅读理解 nutch 的源代码的基础上，

以便最终得以从 nutch 中抽离出我们需要的功能，并改进些许实现过程。

二． Nutch 数据集的基本组成

crawldb: 爬行数据库，用来存储所要爬行的网址

linkdb: 链接数据库，用来存储每个网址的链接地址，包括源地址和链

接地址

注：上面两个是 web link 目录，存放 url 及 url 的互联关系，作为爬行与重新爬行的依

据。

segments: 抓取的网址被作为一个单元，而一个 segment 就是一个单元。

一个 segment 包括以下几个子目录:

crawl_generate:包含待抓取的网址列表

crawl_fetch:包含每个抓取页面的状态

content:包含每个抓取页面的内容

parse_text:包含每个抓取页面的解析文本

parse_data:包含每个页面的外部链接和元数据

crawl_parse:包含网址的外部链接地址，用于更新 crawldb 数据库

注：是主目录，存放抓回来的网页。页面内容有 bytes[]的 raw content 和 parsed text 的

形式。nutch 以广度优先的原则来爬行，因此每爬完一轮会生成一个 segment 目录。

indexes: 采用 Lucene 的格式建立索引集

index: 是 lucene 的索引目录，是 indexes 目录里所有 index 合并后的完整索引，注意索

引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问 segments 目录才能获

得页面内容。

1.Crawldb 中数据构成：

其

中

Status 有：

2.segments 中数据构成：

2

Crawl_generate 在 generate 阶段生成，content 和 crawl_fetch 在 fetch 阶段生成，其它三个文件在 parse

阶段生成。

其中 content 中存放 fetch 成功后的网页源代码，具体大致如下：

crawl_fetch 为执行 fetch 操作过后链接的信息，主要记录状态更改，格式同 crawldb 中数据；

Crawl_generate 为等待爬行的网址列表，crawldb 的一部分筛选而得；

Parse_text 为解析出来的文本词汇信息；

Parse_data 为解析出来的外部链接信息和元数据；

Crawl_parse 外部链接。

三． Nutch 流程综述

3

四． Nutch 详细爬行流程之源码分析：

㈠．Crawl 初始化：Crawl.java，主控程序，main 方法中包含了整个爬行阶段；

主要操作：

根据配置文件和命令行输入参数，初始化相关参数及各阶段入口类；采用广度优先

搜索，以一个爬行深度作为一个爬行循环（Generator→Crawldb），生产一个 segment。

Configuration、JobConf、FileSystem、FileStatus？

crawl-tool.xml、crawl-urlfilter.txt 初始化 Configuration，Configuration 初始化 JobConf 及

其他。

㈡．Injector：将 url 集注入 crawldb。入口：

Injector 流程图：

内容反馈

版权申诉

小贝德罗

粉丝: 69
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip