### Windows 下安装 Hadoop 云计算环境的完整步骤 在 Windows 环境下搭建 Hadoop 集群是一项挑战性的任务,尤其是对于初次接触大数据处理框架的开发者来说。本文将详细阐述在 Windows 平台上安装配置 Hadoop 的具体步骤及注意事项,确保读者能够顺利搭建出一个可运行的 Hadoop 环境。 #### 步骤一:安装 Cygwin 需要下载并安装 Cygwin。Cygwin 是一个在 Windows 上运行的 Linux 类似环境,它提供了 Linux 的许多命令行工具,这对于 Hadoop 的安装非常关键。请确保安装过程中包含以下组件: - `bash`:提供 Bash shell。 - `make`:用于编译源代码。 - `gcc`、`g++`:C 和 C++ 编译器。 - `libstdc++-devel`:C++ 开发库。 - `autoconf`、`automake`、`libtool`:这些工具用于自动构建项目。 - `openssl-devel`:提供 SSL 支持。 - `wget`:用于从网络上下载文件。 完成安装后,确保 Cygwin 的安装目录正确设置,例如:`D:/cygwin`。 #### 步骤二:安装 JDK 接下来是安装 Java Development Kit (JDK),因为 Hadoop 是基于 Java 开发的,所以需要 JDK。推荐版本为 JDK 1.6 或以上版本。本例中使用的 JDK 版本为 `jdk1.6.0_06`,安装路径为 `D:\programs\Java\jdk1.6.0_06`。 #### 步骤三:解压 Hadoop 文件 将下载好的 Hadoop 压缩包解压到指定目录,例如:`D:/hadoop-0.19.1`。解压完成后,进入 Hadoop 的配置文件夹 `conf`,修改 `hadoop-env.sh` 文件,设置正确的 JDK 路径。例如,将原本的 `#export JAVA_HOME=/usr/lib/j2sdk1.5-sun` 修改为: ```sh export JAVA_HOME=/cygdrive/D/programs/Java/jdk1.6.0_06 ``` #### 步骤四:配置 Cygwin 环境变量 在 Cygwin 环境中,使用命令 `cd /cygdrive/d/hadoop-0.19.1` 进入 Hadoop 的安装目录。然后执行 `./bin/hadoop` 来测试 Hadoop 是否正确安装。 #### 步骤五:运行示例程序 接下来可以尝试运行 Hadoop 自带的一些示例程序来测试环境是否配置成功。例如,运行 word count 示例: ```sh $ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' ``` 这将运行一个简单的文本匹配任务,将结果输出到 `output` 目录下。可以通过命令 `$ bin/hadoop fs -get output output` 将输出文件从分布式文件系统复制到本地文件系统,并通过 `$ cat output/*` 查看输出结果。 #### 步骤六:创建输入目录 为了测试 Hadoop 的 MapReduce 功能,需要先创建一个输入目录,如 `input-dir`,并在其中放置几个测试文件(如 `input-a.txt`、`input-b.txt` 和 `input-c.txt`)。这些文件中的数据可以随意编写。 #### 步骤七:运行 WordCount 示例 使用以下命令运行 WordCount 示例: ```sh ./bin/hadoop jar hadoop-0.19.1-examples.jar wordcount input-dir output-dir ``` 这将对 `input-dir` 中的所有文件进行单词计数,并将结果存储在 `output-dir` 中。 #### 常见问题及解决方法 - **日志文件路径问题**:可能会遇到类似 `cygpath cannot create short name of d:\hadoop-0.19.1\logs` 的错误提示。这通常是因为 Windows 对文件路径长度有限制,解决方法是在 `hadoop-env.sh` 中添加或修改日志路径,避免过长的路径名。 - **权限问题**:如果遇到权限问题,确保 Hadoop 的安装目录具有正确的读写权限。 通过以上步骤,你可以在 Windows 系统下成功安装并配置好 Hadoop 环境,为后续的大数据分析工作打下坚实的基础。
1)安装cygwin在D:/cygwin
2)安装JDK在D:\programs\Java\jdk1.6.0_06
3)解压hadoop-0.19.1在d:/hadoop-0.19.1
4)D:\hadoop-0.19.1\conf\hadoop-env.sh
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
改为:
export JAVA_HOME=/cygdrive/D/programs/Java/jdk1.6.0_06
5)启动cygwin,在cygwin根目录下输入如下命令:
cd /cygdrive/d/hadoop-0.19.1
从cygwin环境下进入hadoop的安装目录
./bin/hadoop
Run some of the examples provided:
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
Examine the output files:
Copy the output files from the distributed filesystem to the local filesytem and examine them:
$ bin/hadoop fs -get output output
$ cat output/*
在启动Cygwin,当前它是在home/yourname目录下的
切换到根目录下,从而进入d:\hadoop-0.19.1目录,并创建一个数据输入目录input-dir
- BillAndJob2012-12-04讲得有些简单,但基本能说明问题
- 粉丝: 5
- 资源: 33
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助