Hadoop 的环境分为本机环境(伪分布式)和集群环境(分布式),目前本人之研究了分布式集群的 Hadoop 相关
内容,因此在这里,对Hadoop 的分布式集群环境搭建进行简要的说明。在hadoop 的搭建之前,还是希望各位读者能
够先了解和熟悉 Hadoop 是什么,能干什么,工作原理等基础性的常识,以便在搭建集群环境时,避免很多纠结。
Hadoop 的集群环境搭建需要 NameNode 节点和 DataNode 节点,在这里我们采用 1+4 ,共 5 台机器(可以是实体
机器,也可以是虚拟机器,只是虚拟机器的性能可能会是将来运行M/R 的瓶颈),来搭建集群环境(实际的生产环境,
不管在机器数量和机器配置上,都应该要比这个测试环境要好很多,但搭建方法都是一样的)。
首先,系统管理员安装好 5 台机器,Hadoop 目前只支持在 Linux 环境下运行,我们所选的是 Suse11 操作系统。
其次,规划并配置好这 5 台机器的 IP 地址,机器名。在本例中,我们规范如下:
NameNode ,IP:10.66.204.65 ,Hostname :cloud-master
DataNode ,IP:10.66.204.66 ,Hostname :cloud-slave01
DataNode ,IP:10.66.204.67 ,Hostname :cloud-slave02
DataNode ,IP:10.66.204.68 ,Hostname :cloud-slave03
DataNode ,IP:10.66.204.69 ,Hostname :cloud-slave04
检查:使用 ifconfig 检查 ip 配置,并使用 ping 命令,验证各机器之间的网络是否联通。
配置 hosts 文件的好处在于,我们可以通过机器名,直接进行ssh 的连接访问。配置方法如下:
使用你喜欢的控制台操作方式,用 root 用户登录到 NameNode 节点(10.66.024.65 )上,使用 vi 命令修改
/etc/hosts 文件,在其中加入如下的段落: