没有合适的资源?快使用搜索试试~ 我知道了~
Heritrix的使用入门
5星 · 超过95%的资源 需积分: 9 133 下载量 185 浏览量
2008-01-03
18:32:25
上传
评论
收藏 621KB DOCX 举报
温馨提示
试读
64页
Heritrix的使用入门
资源推荐
资源详情
资源评论
很强大,这点在前面的章节中,已经作了详细介绍。但是,无论多么
强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫
。
网络爬虫,又被称为蜘蛛 ,或是网络机器人、 等,这些都无关紧
要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。
是一个纯由 开发的、开源的 网络爬虫,用户可以使用它从
网络上抓取想要的资源。它来自于 。 最出色之处在
于它的可扩展性,开发者可以扩展它的各个组件,来实现自己的抓取逻辑。本
章就来详细介绍一下 和它的各个组件。
10.1 Heritrix 的使用入门
要想学会使用 ,当然首先得能把它运行起来。然而,运行 并
非一件容易的事,需要进行很多配置。在 的文档中对它的运行有详细
的介绍,不过尽管如此,笔者仍然花了大量时间,才将其配置好并运行成功。
10.1.1 下载和运行 Heritrix
的下载页面为:。从
上面可以链接到 的下载页面。当前 的最新版本为
!!"。
(!)在下载完 的完整开发包后,解压到本地的一个目录下,如图 !"#
! 所示。
图 !"#!$% 的目录结构
其中, 所用到的工具类库都存于 下,#!!"!& 是
的 包。另外,在 目录下有一个 ' 目录,其中包含了一
个很重要的文件:。
(()在 中配置了大量与 运行息息相关的参数,
这些参数主要是配置了 运行时的一些默认工具类、)* 的启动参数,
以及 的日志格式等。当第一次运行 时,只需要修改该文件,
为其加入 )* 的登录名和密码,如图 !"#( 所示。
图 !"#($%修改 的 )* 的登录名和密码
其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做
为用户名密码,图中所示只不过延续了 以前版本中默认的用户名和密
码而已。
(+)在设置完登录名和密码后,就可以开始运行 了。 有多
种方式启动,例如,可以使用 ,,,以后台方式加载一个抓取任
务,即为编程式启动。不过最常见的还是以 )* 的方式启动它。
(-) 的主类为 ,运行它,就可以启动
。当然,在运行它的时候,需要为其加上 目录下的所有 & 包。以
下是笔者在命令行中启动 时所使用的批处理文件,此处列出,仅供读
者参考(笔者的 目录是位于 . 盘的根目下,即 ./)。
代码 !"!
&%-Xmx512m%-Dheritrix.home=e:\\heritrix%-cp%0.//////
##!+&1.//////##+!&1.//
////&#!2(&1.//////##("#3,!#
(""+!!"(&1.//////##!"-&1.//////
##+"!&1.//////##!"&1.////
//-&#!"!&1.//////&'#,4#567#!&1.////
//#("-&1.//////##-!+"&1.//////
&#+8!&1.//////&###-!+"&1.////
//##(!&1.//////#!("&1.//////#
("#3,!#(""+!!"(&1.//////&9#-((+&1.//////
##!-!&1.//////#":;&1.//////#
!2(&1.//////'#:"+###!"&1.//////&#
+"!(&1.//////##!+&1.//////&#
##-!+"&1.////#!!"!&0%
org.archive.crawler.Heritrix
(:)在上面的批处理文件中,将 所用到的所有的第三方 包都写进
了 中,同时执行了 这个主类。图
!"#+ 为 启动时的画面。
图 !"#+$% 的启动画面
(2)在这时, 的后台已经对服务器的 8"8" 端口进行了监听,只需要
通过浏览器访问 8"8",就可以打开 的 )* 了。
如图 !"#- 所示。
图 !"#-$% 的 )* 的登录界面
(<)在这个登录界面,输入刚才在 中预设的 )* 的
用户名和密码,就可以进入如图 !"#: 所示的 的 )* 的主界面。
图 !"#:$%登录后的界面
(8)当看到这个页面的时候,就说明 已经成功的启动了。在页面的
中央有一道状态栏,用于标识当前正在运行的抓取任务。如图 !"#2 所示:
图 !"#2$%抓取任务的状态栏
在这个 )* 的帮助下,用户就可以开始使用 来抓取网页了。
10.1.2 在 Eclipse 里配置 Heritrix 的开发环境
讲完了通过命令行方式启动的 ,当然要讲一下如何在 . 中配置
的开发环境,因为可能需要对代码进行调试,甚至修改一些它的源代
码,来达到所需要的效果。下面来研究一下 的下载包。
(!) 文件夹是用来提供 引擎的,也就是提供 的
)* 的部分,因此,在构建开发环境时必不可少。' 文件夹是用来提供
配置文件的,因此也需要配置进入工程。 目录下主要是 在运行时
剩余63页未读,继续阅读
资源评论
- 王仕贵2019-04-26资源不错,值得推荐!
- mdynightfire2013-11-06还可以,貌似是lucene+heritrix那本书里面heritrix内容部分的节选,总体说不错,值得下载,正在学习,谢谢!
- liziv22011-11-15还可以,貌似是lucene+heritrix那本书里面heritrix内容部分的节选,总体说不错,值得下载
- gongdanvsheng2012-03-07内容描述的还不错,正在学习,谢谢!
- 创造者2014-10-25貌似是lucene+heritrix那本书里面heritrix内容部分的节选
qiuyetingfeng
- 粉丝: 0
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功