Hadoop集群部署实例_hadoop3.3.4安装部署资源-CSDN文库

Hadoop

需积分: 20 164 浏览量 2018-02-06 10:28:46 上传评论收藏 1.57MB PDF 举报

资源推荐

资源详情

资源评论

CDH5发行版Hadoop集群部署实例

一、概要

由于工作需要，最近一段时间开始接触学习 Hadoop 相关的东西，目前公司的实时任务和离线任务都跑在一个 Hadoop 集群，离线

任务的特点就是每天定时跑，任务跑完了资源就空闲了，为了合理的利用资源，我们打算在搭一个集群用于跑离线任务，计算节点和

储存节点分离，计算节点结合 aws 的 Auto Scaling（自动扩容、缩容服务）以及竞价实例，动态调整，在跑任务的时候拉起一批实

例，任务跑完就自动释放掉服务器，本文记录下 Hadoop 集群的搭建过程，方便自己日后查看，也希望能帮到初学者，本文所有软

件都是通过 yum 安装，大家也可以下载相应的二进制文件进行安装，使用哪种方式安装，从属个人习惯。

二、环境

1、角色介绍

10.10.103.246 NameNode zkfc journalNode QuorumaPeerMain DataNode ResourceManager NodeManager

WebAppProxyServer JobHistoryServer

10.10.103.144 NameNode zkfc journalNode QuorumaPeerMain DataNode ResourceManager NodeManager

WebAppProxyServer

10.10.103.62 zkfc journalNode QuorumaPeerMain DataNode NodeManager

2、基础环境说明

a、系统版本

我们用的是 aws 的 ec2，用的 aws 自己定制过的系统，不过和 redhat 基本相同，内核版本：4.9.20-10.30.amzn1.x86_64

b、java 版本

java version "1.8.0_121"

c、hadoop 版本

hadoop-2.6.0

d、cdh 版本

cdh5.11.0

e、关于主机名，因为我这里用的 aws 的 ec2，默认已有主机名，并且内网可以解析，故就不单独做主机名的配置了，如果你的主机

名内网不能解析，请一定要配置主机名，集群内部通讯很多组件使用的是主机名

下面关于 Hadoop 的文章您也可能喜欢，不妨看看：

Ubuntu14.04 下 Hadoop2.4.1 单机/伪分布式安装配置教程 http://www .linuxidc.com/Linux/2015-02/113487.htm

CentOS 6.3 下 Hadoop 伪分布式平台搭建 http://www.linuxidc.com/Linux/2016-11/136789.htm

Ubuntu 14.04 LTS 下安装 Hadoop 1.2.1（伪分布模式） http://www.linuxidc.com/Linux/2016-09/135406.htm

Ubuntu 上搭建 Hadoop 环境（单机模式+伪分布模式） http://www.linuxidc.com/Linux/2013-01/77681.htm

实战 CentOS 系统部署 Hadoop 集群服务 http://www .linuxidc.com/Linux/2016-11/137246.htm

Hadoop 2.6.0 HA 高可用集群配置详解 http://www.linuxidc.com/Linux/2016-08/134180.htm

Spark 1.5、Hadoop 2.7 集群环境搭建 http://www.linuxidc.com/Linux/2016-09/135067.htm

在 Ubuntu X64 上编译安装 Hadoop http://www.linuxidc.com/Linux/2016-12/138568.htm

本文档由Linux公社 www.linuxidc.com 整理

echo 3 > /data/zookeeper/myid #10.10.103.62 上操作

/etc/init.d/zookeeper-server #启动服务

/usr/lib/zookeeper/bin/zkServer.sh status #查看所有节点状态，其中只有一个节点是

Mode: leader 就正常了

3、安装

a、10.10.103.246 和 10.10.103.144 安装

yum -y install hadoop hadoop-client hadoop-hdfs hadoop-hdfs-namenode hadoop-hdfs-

zkfc hadoop-hdfs-journalnode hadoop-hdfs-datanode hadoop-mapreduce-

historyserver hadoop-yarn-nodemanager hadoop-yarn-proxyserver hadoop-yarn hadoop-

mapreduce hadoop-yarn-resourcemanager hadoop-lzo* impala-lzo

b、10.10.103.62 上安装

yum -y install hadoop hadoop-client hadoop-hdfs hadoop-hdfs-journalnode hadoop-

hdfs-datanode hadoop-lzo* impala-lzo hadoop-yarn hadoop-mapreduce hadoop-yarn-

nodemanager

PS：

1、一般小公司，计算节点(ResourceManager)和储存节点(NameNode)的主节点部署在两台服务器上做 HA，计算节点

（NodeManager）和储存节点（DataNode）部署在多台服务器上，每台服务器上都启动 NodeManager 和 DataNode 服务。

2、如果大集群，可能需要计算资源和储存资源分离，集群的各个角色都有服务器单独部署，个人建议划分如下:

a、储存节点

NameNode：

需要安装 hadoop hadoop-client hadoop-hdfs hadoop-hdfs-namenode hadoop-hdfs-zkfc hadoop-lzo* impala-lzo

DataNode：

需要安装 hadoop hadoop-client hadoop-hdfs hadoop-hdfs-datanode hadoop-lzo* impala-lzo

QJM 集群：

需要安装 hadoop hadoop-hdfs hadoop-hdfs-journalnode zookeeper zookeeper-server

b、计算节点

ResourceManager：

需要安装 hadoop hadoop-client hadoop-yarn hadoop-mapreduce hadoop-yarn-resourcemanager

WebAppProxyServer：

需要安装 hadoop hadoop-yarn hadoop-mapreduce hadoop-yarn-proxyserver

JobHistoryServer：

需要安装 hadoop hadoop-yarn hadoop-mapreduce hadoop-mapreduce-historyserver

NodeManager：

需要安装 hadoop hadoop-client hadoop-yarn hadoop-mapreduce hadoop-yarn-nodemanager

本文档由Linux公社 www.linuxidc.com 整理

4、配置

a、创建目录并设置权限

mkdir -p /data/hadoop/dfs/nn #datanode 上操作

chown hdfs:hdfs /data/hadoop/dfs/nn/ -R #datanode 上操作

mkdir -p /data/hadoop/dfs/dn #namenode 上操作

chown hdfs:hdfs /data/hadoop/dfs/dn/ -R #namenode 上操作

mkdir -p /data/hadoop/dfs/jn #journalnode 上操作

chown hdfs:hdfs /data/hadoop/dfs/jn/ -R #journalnode 上操作

mkdir /data/hadoop/yarn -p #nodemanager 上操作

chown yarn:yarn /data/hadoop/yarn -R #nodemanager 上操作

b、撰写配置文件

vim /etc/hadoop/conf/capacity-scheduler.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<property><name>yarn.scheduler.capacity.maximum-

applications</name><value>10000</value></property>

<property><name>yarn.scheduler.capacity.maximum-am-resource-

percent</name><value>0.4</value></property>

<property><name>yarn.scheduler.capacity.resource-

calculator</name><value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator<

/value></property>

<property><name>yarn.scheduler.capacity.node-locality-

delay</name><value>30</value></property>

<property><name>yarn.scheduler.capacity.root.queues</name><value>default,server,offline

</value></property>

<property><name>yarn.scheduler.capacity.root.default.capacity</name><value>95</value></

property>

<property><name>yarn.scheduler.capacity.root.default.maximum-

capacity</name><value>100</value></property>

<property><name>yarn.scheduler.capacity.root.default.user-limit-

factor</name><value>100</value></property>

<property><name>yarn.scheduler.capacity.root.default.state</name><value>running</value>

</property>

<property><name>yarn.scheduler.capacity.root.default.acl_submit_applications</name><val

ue>*</value></property>

<property><name>yarn.scheduler.capacity.root.default.acl_administer_queue</name><value>

*</value></property>

<property><name>yarn.scheduler.capacity.root.server.capacity</name><value>0</value></pr

operty>

<property><name>yarn.scheduler.capacity.root.server.maximum-

capacity</name><value>5</value></property>

<property><name>yarn.scheduler.capacity.root.server.user-limit-

factor</name><value>100</value></property>

<property><name>yarn.scheduler.capacity.root.server.acl_submit_applications</name><valu

e>haijun.zhao</value></property>

本文档由Linux公社 www.linuxidc.com 整理

剩余19页未读，继续阅读

评论收藏

内容反馈

tornadom

粉丝: 0
资源: 1

Hadoop集群部署实例

hadoop集群搭建详解

Hadoop集群中WordCount示例

Hadoop集群部署

Hadoop与Spark集群部署实例.pdf

Hadoop平台部署及实例运行

hadoop2.6 centos6.5 伪分布式环境部署 实例

hadoopcluster-ansible:它包含Ansible Playbook和角色，可通过AWS部署Hadoop多节点集群

新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

hadoop2.2.0部署

部署全分布模式Hadoop集群 实验报告

Hadoop集群部署文档

Hadoop集群部署方案.docx

Hadoop集群部署完整版

Hadoop集群部署研究.docx

实验项目 实战 HDFS 实验报告

云部署中的Hadoop

ankus:ANKUS 是大数据框架的部署和编排工具

Flink在CDH配置部署及读取kafka的实例验证；

云计算应用实例.doc

安装部署Hadoop集群.docx

Hadoop集群部署方案.pdf

Ambari部署Hadoop集群.doc

安装部署Hadoop集群.pdf

Hadoop 1.x集群部署步骤

opendataplatform:一个开源的，企业规模的，与供应商无关的数据平台，可加快解决方案的交付速度

apache-knox-helm:Apache Knox的舵图

大型集群上的快速和通用数据处理架构

最新资源

hadoop2.6 centos6.5 伪分布式环境部署实例

新版Hadoop视频教程段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

部署全分布模式Hadoop集群实验报告

实验项目实战 HDFS 实验报告