heritrix抓取的操作和扩展资源-CSDN文库

5星 · 超过95%的资源需积分: 9 173 浏览量 2013-05-29 14:42:21 上传评论收藏 718KB DOCX 举报

Heritrix是一个强大的开源网络爬虫工具，专为互联网网页存档设计，由Java编写，由互联网档案馆和北欧国家图书馆共同开发。Heritrix的工作模型基于一个循环过程，包括选择URI、下载内容、分析归档、选择新URI并添加到队列，以及标记已处理的URI。它的整体结构包括多个组件，协同工作以实现高效和可控的网页抓取。配置和使用Heritrix主要包括以下几个步骤： 1. **安装与配置**：从官方站点下载最新版本的Heritrix并解压缩。核心配置文件`heritrix.properties`位于`conf`目录下，其中包含了Heritrix运行所需的许多参数，如WebUI登录信息、日志格式等。首次启动时，需在此文件中设置WebUI的用户名和密码，例如`heritrix.cmdline.admin=admin:admin`。 2. **启动Heritrix**：创建一个启动脚本，如`Heritrix.cmd`，并运行。在浏览器中访问`http://localhost:8080/`，使用设置的用户名和密码登录Web管理界面。 3. **新建抓取任务**： - 任务创建页面提供了四种方式：基于现有任务、基于恢复、基于模板或默认设置。 - 选择`With defaults`创建任务，填写任务名、描述和起始URL。 - 配置处理链：在`Select Writers`中移除默认的`ARCWriterProcessor`，添加`MirrorWriterProcessor`。这将使Heritrix抓取的页面以镜像形式保存在本地目录，而非生成ARC存档文件。 - 设置属性：在`Settings`页面，有许多预设组件的值可供调整。每个属性旁边都有问号图标，点击后可查看详细解释。 Heritrix的扩展性体现在能够通过自定义处理器和模块来适应不同的抓取需求。例如，`MirrorWriterProcessor`的使用就是一种扩展，它改变了默认的存档格式，使得抓取结果以网站镜像的形式存在。开发者可以进一步修改类文件，如`MirrorWriterProcessor`，以定制其行为，如改变存储路径、处理规则等。 Heritrix的强大之处还在于其模块化的设计，用户可以根据需求添加或修改处理器、过滤器和策略，以实现特定的爬网功能。此外，Heritrix支持多种数据格式，如WARC和ARC，方便数据的长期保存和分析。在实际应用中，Heritrix通常用于大规模的网页抓取项目，例如学术研究、数据挖掘、网站备份或监控。通过调整配置和扩展，Heritrix可以适应各种复杂的抓取场景，提供稳定且灵活的服务。然而，由于其丰富的配置选项和复杂的架构，对于新手来说，学习和掌握Heritrix可能需要一定的时间。因此，深入理解Heritrix的工作原理和配置机制是充分发挥其潜力的关键。

资源推荐

资源详情

资源评论