heritrix抓取的操作和扩展
Heritrix是一个强大的开源网络爬虫工具,专为互联网网页存档设计,由Java编写,由互联网档案馆和北欧国家图书馆共同开发。Heritrix的工作模型基于一个循环过程,包括选择URI、下载内容、分析归档、选择新URI并添加到队列,以及标记已处理的URI。它的整体结构包括多个组件,协同工作以实现高效和可控的网页抓取。 配置和使用Heritrix主要包括以下几个步骤: 1. **安装与配置**:从官方站点下载最新版本的Heritrix并解压缩。核心配置文件`heritrix.properties`位于`conf`目录下,其中包含了Heritrix运行所需的许多参数,如WebUI登录信息、日志格式等。首次启动时,需在此文件中设置WebUI的用户名和密码,例如`heritrix.cmdline.admin=admin:admin`。 2. **启动Heritrix**:创建一个启动脚本,如`Heritrix.cmd`,并运行。在浏览器中访问`http://localhost:8080/`,使用设置的用户名和密码登录Web管理界面。 3. **新建抓取任务**: - 任务创建页面提供了四种方式:基于现有任务、基于恢复、基于模板或默认设置。 - 选择`With defaults`创建任务,填写任务名、描述和起始URL。 - 配置处理链:在`Select Writers`中移除默认的`ARCWriterProcessor`,添加`MirrorWriterProcessor`。这将使Heritrix抓取的页面以镜像形式保存在本地目录,而非生成ARC存档文件。 - 设置属性:在`Settings`页面,有许多预设组件的值可供调整。每个属性旁边都有问号图标,点击后可查看详细解释。 Heritrix的扩展性体现在能够通过自定义处理器和模块来适应不同的抓取需求。例如,`MirrorWriterProcessor`的使用就是一种扩展,它改变了默认的存档格式,使得抓取结果以网站镜像的形式存在。开发者可以进一步修改类文件,如`MirrorWriterProcessor`,以定制其行为,如改变存储路径、处理规则等。 Heritrix的强大之处还在于其模块化的设计,用户可以根据需求添加或修改处理器、过滤器和策略,以实现特定的爬网功能。此外,Heritrix支持多种数据格式,如WARC和ARC,方便数据的长期保存和分析。 在实际应用中,Heritrix通常用于大规模的网页抓取项目,例如学术研究、数据挖掘、网站备份或监控。通过调整配置和扩展,Heritrix可以适应各种复杂的抓取场景,提供稳定且灵活的服务。然而,由于其丰富的配置选项和复杂的架构,对于新手来说,学习和掌握Heritrix可能需要一定的时间。因此,深入理解Heritrix的工作原理和配置机制是充分发挥其潜力的关键。
剩余11页未读,继续阅读
- zzh189945977772014-07-14非常有帮助,但是其中有少许缺漏,需要自己添加
- zhangyuemeimeimei2013-12-23里面有具体代码,挺好用的
- xiao_yun2014-03-25可以使用,还不错哦
- HMH24782392014-08-25不错!正好是我需要的
- 粉丝: 0
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 13-募捐义卖活动策划书方案.docx
- 阳光义卖策划书.docx
- 12-募捐义卖活动策划书.docx
- 公司运动会策划书.doc
- 公司运动会策划案(详细).docx
- 程序设计基础课程辅助教学系统_6e043x2u.zip
- 趣味运动会策划方案.doc
- 骑行运动活动策划.pptx
- 复兴村医疗管理系统-6q87918h.zip
- 职工足球联赛活动方案 (2).docx
- 足球比赛策划.doc
- Qt源码~~EQ曲线升级版 代码写的不错,注释也很详细了
- 高考志愿智能推荐系统_2a1qfv22.zip
- 基于 springboot +vue 的实践性教学系统-o74t04z0-论文.zip
- 基于 javaee 的超市外卖系统的设计与实现_pp44m888--论文.zip
- 基于Java的车辆保险理赔平台的设计与实现-za60wo3t.zip