heritrix抓取的操作和扩展
Heritrix是一个强大的开源网络爬虫工具,专为互联网网页存档设计,由Java编写,由互联网档案馆和北欧国家图书馆共同开发。Heritrix的工作模型基于一个循环过程,包括选择URI、下载内容、分析归档、选择新URI并添加到队列,以及标记已处理的URI。它的整体结构包括多个组件,协同工作以实现高效和可控的网页抓取。 配置和使用Heritrix主要包括以下几个步骤: 1. **安装与配置**:从官方站点下载最新版本的Heritrix并解压缩。核心配置文件`heritrix.properties`位于`conf`目录下,其中包含了Heritrix运行所需的许多参数,如WebUI登录信息、日志格式等。首次启动时,需在此文件中设置WebUI的用户名和密码,例如`heritrix.cmdline.admin=admin:admin`。 2. **启动Heritrix**:创建一个启动脚本,如`Heritrix.cmd`,并运行。在浏览器中访问`http://localhost:8080/`,使用设置的用户名和密码登录Web管理界面。 3. **新建抓取任务**: - 任务创建页面提供了四种方式:基于现有任务、基于恢复、基于模板或默认设置。 - 选择`With defaults`创建任务,填写任务名、描述和起始URL。 - 配置处理链:在`Select Writers`中移除默认的`ARCWriterProcessor`,添加`MirrorWriterProcessor`。这将使Heritrix抓取的页面以镜像形式保存在本地目录,而非生成ARC存档文件。 - 设置属性:在`Settings`页面,有许多预设组件的值可供调整。每个属性旁边都有问号图标,点击后可查看详细解释。 Heritrix的扩展性体现在能够通过自定义处理器和模块来适应不同的抓取需求。例如,`MirrorWriterProcessor`的使用就是一种扩展,它改变了默认的存档格式,使得抓取结果以网站镜像的形式存在。开发者可以进一步修改类文件,如`MirrorWriterProcessor`,以定制其行为,如改变存储路径、处理规则等。 Heritrix的强大之处还在于其模块化的设计,用户可以根据需求添加或修改处理器、过滤器和策略,以实现特定的爬网功能。此外,Heritrix支持多种数据格式,如WARC和ARC,方便数据的长期保存和分析。 在实际应用中,Heritrix通常用于大规模的网页抓取项目,例如学术研究、数据挖掘、网站备份或监控。通过调整配置和扩展,Heritrix可以适应各种复杂的抓取场景,提供稳定且灵活的服务。然而,由于其丰富的配置选项和复杂的架构,对于新手来说,学习和掌握Heritrix可能需要一定的时间。因此,深入理解Heritrix的工作原理和配置机制是充分发挥其潜力的关键。
剩余11页未读,继续阅读
- zzh189945977772014-07-14非常有帮助,但是其中有少许缺漏,需要自己添加
- zhangyuemeimeimei2013-12-23里面有具体代码,挺好用的
- xiao_yun2014-03-25可以使用,还不错哦
- HMH24782392014-08-25不错!正好是我需要的
- 粉丝: 0
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于SimPy和贝叶斯优化的流程仿真系统.zip
- (源码)基于Java Web的个人信息管理系统.zip
- (源码)基于C++和OTL4的PostgreSQL数据库连接系统.zip
- (源码)基于ESP32和AWS IoT Core的室内温湿度监测系统.zip
- (源码)基于Arduino的I2C协议交通灯模拟系统.zip
- coco.names 文件
- (源码)基于Spring Boot和Vue的房屋租赁管理系统.zip
- (源码)基于Android的饭店点菜系统.zip
- (源码)基于Android平台的权限管理系统.zip
- (源码)基于CC++和wxWidgets框架的LEGO模型火车控制系统.zip