apache-nutch-2.3.1-src.tar.gz资源-CSDN文库

需积分: 9 112 浏览量 2017-04-10 14:30:03 上传评论收藏 5.01MB GZ 举报

共1897个文件

html：1106个

java：442个

xml：158个

Apache Nutch 是一个开源的网络爬虫项目，用于抓取互联网上的网页并建立索引，以便于搜索引擎进行高效检索。Nutch 是由 Apache Software Foundation 维护，它提供了完整的网络爬虫解决方案，包括数据采集、预处理、文本分析以及搜索功能。`apache-nutch-2.3.1-src.tar.gz` 是 Apache Nutch 的源代码包，版本号为 2.3.1，以 tar.gz 格式压缩。这个压缩包中包含的主要文件和目录结构如下： 1. **src**: 这是 Nutch 的源代码存放位置，分为多个子目录，如 `src/java` 存放 Java 代码，`src/test` 包含测试用例，`src/bin` 存放可执行脚本，`src/conf` 有配置文件等。 2. **build.xml**: Ant 构建文件，用于编译、测试和打包 Nutch 项目。通过运行 Ant 命令，你可以构建和定制 Nutch。 3. **README.txt**: 提供了关于 Nutch 的基本介绍和安装指南，包括如何编译、配置以及运行 Nutch。 4. **LICENSE**: Nutch 的许可协议，它是 Apache License 2.0，允许自由使用、修改和分发。 5. **NOTICE**: 提供了关于 Nutch 使用的第三方库和组件的版权信息。 6. **ivy.xml**: Ivy 文件用于管理 Nutch 的依赖库，通过 Apache Ivy 工具自动下载和管理这些依赖。 Nutch 的核心知识点包括： 1. **网络爬虫架构**：Nutch 采用模块化设计，包括爬取（Fetcher）、解析（Parser）、分割（Segmenter）、索引（Indexer）和搜索（Searcher）等模块。 2. **Hadoop 集成**：Nutch 与 Hadoop 深度集成，利用 Hadoop 的分布式计算能力处理大规模数据。 3. **插件系统**：Nutch 具有强大的插件体系，允许用户根据需求自定义爬虫行为，例如解析不同格式的网页、定制索引策略等。 4. **URL 管理**：Nutch 使用 URL 的数据库来跟踪已抓取、待抓取和已排除的网页，通过种子文件启动爬虫。 5. **配置文件**：如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`，分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**：Nutch 支持基于链接的抓取策略，如 PR（PageRank）和 TF-IDF（Term Frequency-Inverse Document Frequency），以及深度优先和广度优先的抓取模式。 7. **文本解析**：Nutch 使用 HTML 解析器（如 Jsoup）提取网页内容，并进行去噪和切词，为索引做准备。 8. **索引存储**：Nutch 可以将抓取的网页数据存储在各种后端，如 HDFS 或者本地文件系统，索引可以被 Elasticsearch 或者 Solr 等搜索引擎读取。 9. **爬虫调度**：Nutch 使用一个调度器（如 FairScheduler 或 CapacityScheduler）来决定何时及如何分配爬取任务到集群中的节点。 10. **测试框架**：Nutch 使用 JUnit 进行单元测试，确保代码的正确性和稳定性。通过深入学习和理解 Apache Nutch，你可以掌握网络爬虫的原理和实践，从而开发出适合自己需求的爬虫系统。

资源推荐

资源详情

资源评论

收起资源包目录

apache-nutch-2.3.1-src.tar.gz （1897个子文件）

webpage.avsc 11KB

host.avsc 1KB

command 348B

elasticsearch.conf 848B

crawl 5KB

.data.crc 540B

.part-00000.crc 480B

.data.crc 408B

.data.crc 304B

.data.crc 208B

.data.crc 196B

.data.crc 52B

.part-00000.crc 52B

.data.crc 24B

.part-00000.crc 20B

.data.crc 20B

.index.crc 12B

.part-00000.crc 12B

.index.crc 12B

.data.crc 12B

.index.crc 12B

.segments.crc 12B

.index.done.crc 8B

stylesheet.css 11KB

nutch-style.css 3KB

data 66KB

data 50KB

data 37KB

data 25KB

data 23KB

data 5KB

data 2KB

data 1KB

data 139B

deletable 4B

word97.doc 8KB

index.done 0B

plugin.dtd 7KB

parse-plugins.dtd 347B

_j.f0 19B

_0.f0 19B

_j.f1 19B

_0.f1 19B

_j.f2 19B

_0.f2 19B

_j.f3 19B

_0.f3 19B

_0.f4 19B

_j.f4 19B

_j.f5 19B

_0.f5 19B

_j.fdt 2KB

_0.fdt 2KB

_j.fdx 152B

_0.fdx 152B

_j.fnm 66B

_0.fnm 66B

_0.frq 8KB

_j.frq 8KB

titlebar.gif 10KB

nutch_logo_tm.gif 3KB

background.gif 2KB

titlebar_end.gif 849B

tab.gif 291B

index-all.html 1.06MB

WebPage.html 177KB

overview-tree.html 127KB

constant-values.html 125KB

WebPage.Tombstone.html 123KB

NutchJob.html 114KB

WebPage.html 109KB

WebPage.Builder.html 91KB

Bytes.html 88KB

WebPage.Field.html 80KB

DOMBuilder.html 73KB

Pluggable.html 67KB

NutchDocument.html 66KB

NutchJobConf.html 62KB

allclasses-frame.html 56KB

package-use.html 53KB

serialized-form.html 49KB

allclasses-noframe.html 49KB

FieldPluggable.html 48KB

package-use.html 48KB

StorageUtils.html 43KB

Nutch.html 43KB

HttpBase.html 42KB

Parse.html 41KB

Host.html 41KB

共 1897 条

评论收藏

内容反馈

Friendship_Boat

粉丝: 6
资源: 10

apache-nutch-2.3.1-src.tar.gz

apache-nutch-2.3.1 源码和构建好的库文件等 （part 3）

apache-nutch-2.3.1-src

src.tar.gz

nutch_src 源码 tar—zip格式

apache-nutch-1.7-src.tar.gz

apache-nutch-1.4-bin.tar.gz

apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

apache-nutch-1.4-bin.tar.gz.part1

apache-nutch-1.5.1-bin.tar.gz

apache-hive-2.3.2-src.tar.gz

apache-james-2.3.2-src.tar.gz

apache-hive-2.3.8-src.tar.gz

apache-nutch-1.6-src.tar.gz

apache-nutch-2.3-src.zip

apache-nutch-1.4-bin.tar.gz.part2

apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

apache-nutch-1.6-bin.tar.gz最新版

nutch2.3.1安装文档教程

apache-nutch-2.2.1（Eclipse直接运行版）001

apache-nutch-2.3

apache-nutch-1.13-src.zip_nutch_网络爬虫

apach-nutch-1.9-bin.tar.gz

apache-nutch-1.4-bin.part2

apache-nutch-1.4-bin.part1

apache-nutch-2.3.1 源码和构建好的库文件等 （part 2）

apache-nutch-2.3.1 源码和构建好的库文件等 （part 1）

apache-nutch-2.3.1 源码和构建好的库文件等 （part 4）

Nutch-2.3-src.tar.gz

最新资源

apache-nutch-2.3.1 源码和构建好的库文件等（part 3）

apache-nutch-2.3.1 源码和构建好的库文件等（part 2）

apache-nutch-2.3.1 源码和构建好的库文件等（part 1）

apache-nutch-2.3.1 源码和构建好的库文件等（part 4）