AnyFo–Nutch冰破银针资源-CSDN文库

需积分: 3 45 浏览量 2008-10-14 10:24:20 上传评论收藏 301KB DOC 举报

1.6 Tomcat中启动搜索站台 1．将Nutch.war包考到Tomcat的webapps下。部署后，进入站台目录下的WEB-INF\classes，找到“nutch-site.xml”文件，打开，向其中根节点添加： <property> <name>searcher.dir</name> <value>E:\nutch-0.9\crawl</value> </property> 2．启动Tomcat，输入http://127.0.0.1:8080/nutch-0.9 3．可以进行查询了。【AnyFo – Nutch 冰破银针】是关于如何在Windows环境下搭建并使用Apache Nutch搜索引擎的一个指南。Apache Nutch是一个开源的网络爬虫项目，用于抓取互联网上的网页并建立索引，以便进行搜索。 **环境搭建** 1. **包下载**：首先需要下载Nutch的release包，这里是0.9版本。 2. **环境变量配置**：设置`JAVA_HOME`或`NUTCH_JAVA_HOME`指向JDK的安装目录，确保系统能够正确识别Java环境。 3. **待爬URL设置**：在Nutch的解压路径下创建一个名为`urls`的目录，并在其中创建一个没有后缀名的文件，如`nutch`，然后添加待爬网站的URL，例如`http://anotherbug.blog.chinajavaworld.com/`。 4. **爬行参数设置**：修改Nutch的配置文件`nutch-site.xml`，添加`http.agent.name`属性，定义爬虫的User-Agent，例如设置为`chinajavaworld java search engine`。 5. **网址过滤设置**：在`crawl-urlfilter.txt`中，根据需要修改URL过滤规则，允许或禁止特定域名的爬取。 6. **Windows执行环境**：由于Nutch的脚本是基于Unix的.sh文件，因此需要安装CygWin模拟Unix终端环境。 7. **执行爬行任务**：在CygWin终端中，进入Nutch的解压路径，使用`bin/nutch crawl`命令开始爬行，例如`bin/nutch crawl urls -dir crawl -depth 3 -threads 20 -topN 50 >& crawl.log`，这里设置了爬行深度为3，线程数为20，每次抓取的页面数量为50。 **Tomcat中启动搜索站台** 1. **部署Nutch**：将`Nutch.war`文件拷贝到Tomcat的`webapps`目录下，等待自动部署。 2. **配置搜索目录**：进入Tomcat部署后的应用目录`WEB-INF\classes`，编辑`nutch-site.xml`，添加`searcher.dir`属性，指定爬取结果的存储位置，例如`E:\nutch-0.9\crawl`。 3. **启动搜索**：启动Tomcat，通过访问`http://127.0.0.1:8080/nutch-0.9`来查看和搜索爬取的网页内容。 **爬行处理** 1. **添加更多待爬站点**：可以通过在`urls`目录下的文件中添加新的URL，或者创建新的文件并添加URL来扩展爬取范围。 2. **站点过滤**：更新`crawl-urlfilter.txt`文件，添加对新站点的接受规则。 3. **重复爬行**：为了进行重复爬行，可以编写一个.sh脚本来合并新的抓取数据，并重新执行爬行过程。注意定期清理`segments`目录以避免数据冗余。这个过程涵盖了Nutch的基本使用，包括从环境准备、爬行配置到数据检索的整个流程，是搭建一个简单Web搜索引擎的基础步骤。通过这样的配置和操作，用户可以自定义爬取范围，构建自己的网页索引库，实现个性化的信息检索服务。

资源推荐

资源评论