没有合适的资源?快使用搜索试试~ 我知道了~
heritrix抓取的操作和扩展
5星 · 超过95%的资源 需积分: 9 32 下载量 173 浏览量
2013-05-29
14:42:21
上传
评论
收藏 718KB DOCX 举报
温馨提示
试读
12页
对heritrix抓取的操作和扩展 里面有MirrorWriterProcessor扩展的类文件修改
资源推荐
资源详情
资源评论
使用小结
简介
是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用 编写并且
完全开源。它主要的用户界面可以通过一个 流量器来访问并通过它来控制检索器的行
为,另外,它还有一个命令行工具来供用户选择调用。
是由互联网档案馆和北欧国家图书馆联合规范化编写于 年初。第一次正式发
布是在 年 月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经
成为一个成熟的开源爬虫,并被广泛使用。
的操作模型
从模型中可以看到,利用 我们可以轻松从互联网上获取信息并将它们全部存储下来,
然后可以任意的访问获取到的网页信息并可以查看报告。
的整体结构简图如下:
它的工作流程是一个循环,具体流程是:
在预定的 中选择一个。
从选择的 的网址下载远程文件
分析,归档下载到的内容
从分析到的内容里面选择感兴趣的 。加入预定队列。
标记已经处理过的
在大概的了解了 及它的工作机制之后,我们就可以开始 的使用了。
的配置与使用
安装与配置
从官方网站 下载最新版本的 运行包,解压到一个文件夹内。
其中, 所用到的工具类库都存于 下,另外,在 目录下有一个 !" 目录,
其中包含了一个很重要的文件:#$
在Ë#$ 中配置了大量与 运行息息相关的参数,这些参数主要是配置了
运行时的一些默认工具类、% 的启动参数,以及 的日志格式等。当第
一 次 运 行 时 , 只 需 要 修 改 该 文 件 , 为 其 加 入 % 的 登 录 名 和 密 码 。
在&'(!('!)&后面增加账户和密码,比如 '(!('!)('!('!
。其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名
剩余11页未读,继续阅读
资源评论
- zzh189945977772014-07-14非常有帮助,但是其中有少许缺漏,需要自己添加
- zhangyuemeimeimei2013-12-23里面有具体代码,挺好用的
- xiao_yun2014-03-25可以使用,还不错哦
- HMH24782392014-08-25不错!正好是我需要的
a2362432
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IMG_20240424_183805.jpg
- DatabaseWatermarkingBasedonTextFormat
- -移动通信-网络课程设计与研究
- 基于Python的PCA人脸识别算法的原理及实现代码+文档详解.zip
- 甘肃移动全业务工程建设项目管理流程优化研究
- 549springboot + vue 民宿管理平台.zip (可运行源码+数据库文件+文档)
- ZArchiver.Pro_0.9.5.apk
- vmware环境配置.mp4
- 548springboot + vue 大学生社团活动平台.zip(可运行源码+数据库文件+文档)
- 微信小程序 辩论倒计时小程序源码 作业设计demo 计算机专业参考
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功