Heritrix 安装和配置流程
简介:
Heritrix 是一款基于 JAVA 的开源的网络爬虫框架.
一 安装:
仅对 Linux 系统的安装作说明.
下载 Heritrix 安装包.
1,执行解压
unzip heritrix-3.1.1-dist.zip
二 配置:
官方文档中提及配置方式为在 shell 中直接配置 JAVA_HOME, HERITRIX_HOME
export JAVA_HOME=PATH
export HERITRIX_HOME=PATH
这种方式在 Linux 系统 reboot 后变量失效.
采用编辑/etc/profile 文件的方式更好.
在文件最后追加上面两行
变量立刻生效 source /etc/profile
三 启动 heritrix
$HERITRIX_HOME/bin/heritrix -a admin:password -b ‘/’
-a 选项: 后面接从网页接口访问时的登陆名和密码
-b 选项:表示监听的访问权限. ‘/’ 表示监听所有请求. 默认的话只能本机进行访问.
四,网页接口配置
Heritrix 启动后 默认监听 8443 接口
通过如下地址访问
https://(heritrixhost):8443 //注意一定要使用 https 安全协议
输入刚才设置的 用户和密码