nutch配置与安装资源-CSDN文库

需积分: 10 59 浏览量 2009-12-20 15:45:11 上传评论收藏 342KB DOC 举报

### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目，基于Apache Hadoop构建，能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项，使得用户可以根据自己的需求进行调整。 #### 二、安装Cygwin Cygwin是在Windows平台上模拟Unix环境的软件，主要用于让Windows系统能够运行Unix应用程序。通过安装Cygwin，可以更好地支持Nutch的运行。 - **下载地址**：[http://www.cygwin.com](http://www.cygwin.com) - **安装步骤**：根据官网提供的指南完成安装过程。 #### 三、安装Nutch Nutch的安装主要包括以下几个步骤： 1. **安装JDK**：首先需要在系统上安装Java Development Kit (JDK)，并设置环境变量`JAVA_HOME`指向JDK的安装目录。 2. **安装Tomcat**：安装Apache Tomcat作为Web服务器。 3. **下载并安装Nutch**：从官方源下载Nutch，并解压至指定目录。 - **下载地址**：[http://www.apache.org/dist/lucene/nutch](http://www.apache.org/dist/lucene/nutch) 4. **设置环境变量**：设置`NUTCH_JAVA_HOME`环境变量，其值为JDK的安装目录。 5. **测试Nutch**：在Cygwin命令行中输入`cd /cygdrive/%NUTCH_HOME%`，然后执行`bin/nutch`命令。如果能看到相应的提示信息，则说明Nutch安装成功。 6. **部署Nutch搜索页面**：将`nutch-0.9.war`文件复制到Tomcat的`webapps`目录下，重启Tomcat服务，通过浏览器访问`http://127.0.0.1:8080/nutch-0.9`来验证部署是否成功。 #### 四、配置Nutch 1. **设置查询目录**：修改`nutch-site.xml`文件中的`searcher.dir`属性，将其设置为Nutch的数据存储目录路径。 ```xml <property> <name>searcher.dir</name> <value>Nutch 的数据存储目录</value> </property> ``` 2. **解决中文显示问题**：为了使Nutch能够正确地处理中文内容，需要修改Tomcat的`conf/server.xml`文件中的`Connector`标签，加入`URIEncoding="UTF-8"`和`useBodyEncodingForURI="true"`属性。 #### 五、局域网抓取配置 1. **启动Tomcat服务器**：确保Tomcat服务正在运行。 2. **准备URL文件**：创建一个名为`url.txt`的文件，其中包含需要抓取的URL列表。例如，`http://127.0.0.1:8080/`。 3. **配置URL过滤规则**：修改`crawl-urlfilter.txt`文件，使用正则表达式定义允许抓取的URL模式。例如，将规则更改为`+^http://127.0.0.1:8080/`，以允许抓取所有以`http://127.0.0.1:8080/`开头的URL。 4. **设置网络蜘蛛身份**：修改`nutch-site.xml`文件，添加`http.agent.name`属性，设置其值为本次抓取任务的身份标识，如`localweb.com`。 5. **执行抓取任务**：在Cygwin命令行中输入`bin/nutch crawl url.txt –dir localweb –depth 3 –topN 100 –threads 1`命令。这里： - `url.txt`：URL列表文件。 - `-dir localweb`：指定抓取结果的存储目录。 - `-depth 3`：设定最大抓取深度为3级。 - `-topN 100`：每层只抓取前100个URL。 - `-threads 1`：使用单线程进行抓取。通过以上步骤，用户可以在Windows平台上顺利安装并配置Nutch，实现对局域网内资源的有效抓取。这对于需要定期收集特定网站数据的场景非常有用，例如网站监控、内容分析等。

资源推荐

资源评论