1.6 Tomcat中启动搜索站台 1. 将Nutch.war包考到Tomcat的webapps下。 部署后,进入站台目录下的WEB-INF\classes,找到“nutch-site.xml”文件,打开,向其中根节点添加: <property> <name>searcher.dir</name> <value>E:\nutch-0.9\crawl</value> </property> 2. 启动Tomcat,输入http://127.0.0.1:8080/nutch-0.9 3. 可以进行查询了。 【AnyFo – Nutch 冰破银针】是关于如何在Windows环境下搭建并使用Apache Nutch搜索引擎的一个指南。Apache Nutch是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行搜索。 **环境搭建** 1. **包下载**:首先需要下载Nutch的release包,这里是0.9版本。 2. **环境变量配置**:设置`JAVA_HOME`或`NUTCH_JAVA_HOME`指向JDK的安装目录,确保系统能够正确识别Java环境。 3. **待爬URL设置**:在Nutch的解压路径下创建一个名为`urls`的目录,并在其中创建一个没有后缀名的文件,如`nutch`,然后添加待爬网站的URL,例如`http://anotherbug.blog.chinajavaworld.com/`。 4. **爬行参数设置**:修改Nutch的配置文件`nutch-site.xml`,添加`http.agent.name`属性,定义爬虫的User-Agent,例如设置为`chinajavaworld java search engine`。 5. **网址过滤设置**:在`crawl-urlfilter.txt`中,根据需要修改URL过滤规则,允许或禁止特定域名的爬取。 6. **Windows执行环境**:由于Nutch的脚本是基于Unix的.sh文件,因此需要安装CygWin模拟Unix终端环境。 7. **执行爬行任务**:在CygWin终端中,进入Nutch的解压路径,使用`bin/nutch crawl`命令开始爬行,例如`bin/nutch crawl urls -dir crawl -depth 3 -threads 20 -topN 50 >& crawl.log`,这里设置了爬行深度为3,线程数为20,每次抓取的页面数量为50。 **Tomcat中启动搜索站台** 1. **部署Nutch**:将`Nutch.war`文件拷贝到Tomcat的`webapps`目录下,等待自动部署。 2. **配置搜索目录**:进入Tomcat部署后的应用目录`WEB-INF\classes`,编辑`nutch-site.xml`,添加`searcher.dir`属性,指定爬取结果的存储位置,例如`E:\nutch-0.9\crawl`。 3. **启动搜索**:启动Tomcat,通过访问`http://127.0.0.1:8080/nutch-0.9`来查看和搜索爬取的网页内容。 **爬行处理** 1. **添加更多待爬站点**:可以通过在`urls`目录下的文件中添加新的URL,或者创建新的文件并添加URL来扩展爬取范围。 2. **站点过滤**:更新`crawl-urlfilter.txt`文件,添加对新站点的接受规则。 3. **重复爬行**:为了进行重复爬行,可以编写一个.sh脚本来合并新的抓取数据,并重新执行爬行过程。注意定期清理`segments`目录以避免数据冗余。 这个过程涵盖了Nutch的基本使用,包括从环境准备、爬行配置到数据检索的整个流程,是搭建一个简单Web搜索引擎的基础步骤。通过这样的配置和操作,用户可以自定义爬取范围,构建自己的网页索引库,实现个性化的信息检索服务。
- 粉丝: 1
- 资源: 7
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助