下载 > 资源分类 >  开发技术 >  Web开发 > Heritrix部署直接能运行的项目

Heritrix部署直接能运行的项目

2009-11-23 上传大小:19.03MB

Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程
   Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的
   资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。
   IA期望他们的crawler包含以下几种:
   宽带爬虫:能够以更高的带宽去站点爬。
   主题爬虫:集中于被选择的问题。
   持续
爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。
   实验爬虫:对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫爬行结果进行分析的。
Heritrix的主页是http://crawler.archive.org
   Heritrix是一个爬虫框架,可加如入一些可互换的组件。
   它的执行是递归进行的,主要有以下几步:
   1。在预定的URI中选择一个。
   2。获取URI
   3。分析,归档结果
   4。选择已经发现的感兴趣的URI。加入预定队列。
   5。标记已经处理过的URI
   Heritrix主要有三大部件:范围部件,边界部件,处理器链
   范围部件:主要按照规则决定将哪个URI入队。
   边界部件:跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个URI,剔除已经处理过的URI。
   处理器链:包含若干处理器获取URI,分析结果,将它们传回给边界部件
   Heritrix的其余部件有:
   WEB管理控制台:大多数都是单机的WEB应用,内嵌JAVA HTTP 服务器。
操作者可以通过选择Crawler命令来操作控制台。
   Crawler命令处理部件:包含足够的信息创建要爬的URI。
   Servercache(处理器缓存):存放服务器的持久信息,能够被爬行部件随时
查到,包括IP地址,历史记录,机器人策略。
   处理器链:
       预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。
        提取链:主要是获得资源,进行DNS转换,填写请求和响应表单
        抽取链:当提取完成时,抽取感兴趣的HTML,JavaScript,通常那里有新的也适合的URI,此时URI仅仅被发现,不会被评估
        写链:存储爬行结果,返回内容和抽取特性,过滤完存储。
        提交链:做最后的维护,例如,测试那些不在范围内的,提交给边界部件
   Heritrix 1.0.0包含以下关键特性:
               1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。
               2。从一个提供的种子进行爬,收集站点内的精确URI,和精确主机。
               3。主要是用广度优先算法进行处理。
               4。主要部件都是高效的可扩展的
               5。良好的配置,包括:
                   a。可设置输出日志,归档文件和临时文件的位置
                   b。可设置下载的最大字节,最大数量的下载文档,和最大的下载时间。
                   c。可设置工作线程数量。
                   d。可设置所利用的带宽的上界。
                   e。可在设置之后一定时间重新选择。
                   f。包含一些可设置的过滤机制,表达方式,URI路径深度选择等等。
   Heritrix的局限:
               1。单实例的爬虫,之间不能进行合作。
               2。在有限的机器资源的情况下,却要复杂的操作。
               3。只有官方支持,仅仅在Linux上进行了测试。
               4。每个爬虫是单独进行工作的,没有对更新进行修订。                      

5 。在硬件和系统失败时,恢复能力很差。
6。很少的时间用来优化性能。
...展开收缩
综合评分:4(48位用户评分)
开通VIP C币充值 立即下载

评论共有4条

name
nerpad2014-07-08 16:19:06
可以,直接当demo用了
name
luxinasdf2014-02-18 13:59:27
用不了,太坑啦
name
memmrf13142013-06-23 23:57:19
解压文件出现错误,不能够打开文件,郁闷死
name
guorain321882012-11-12 16:56:27
解压直接显示错误 烦死啦

评论资源

您不能发表评论,可能是以下原因:

登录后才能评论

待评论资源
 

热门专辑

开发技术热门标签

VIP会员动态

关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
确认下载
img

Heritrix部署直接能运行的项目

会员到期时间: 剩余下载个数: 剩余C币:593 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
(仅够下载10个资源)
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
C币充值 开通VIP
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可奖励20下载分

  • 举报人:
  • 被举报人:
  • 举报的资源分:
  • *类型:
  • *详细原因: