11-Hadoop部署多机HDFS+HA+Federation+YARN1
需积分: 0 200 浏览量
更新于2022-08-03
收藏 1.15MB PDF 举报
在IT领域,Hadoop是一个广泛使用的开源框架,用于存储和处理大数据。本文将详细解析如何在多机环境中部署Hadoop的HDFS(Hadoop Distributed File System)高可用性(HA)、Federation以及YARN(Yet Another Resource Negotiator)组件。我们将按照步骤进行,确保每个环节的正确设置和启动。
我们来看集群环境的节点分布:
- JournalNode:这些节点负责维护HDFS的元数据,包括chinahadoop2、chinahadoop3和chinahadoop4。
- Cluster1 HA:此集群包含两个NameNode,一个为主(Active),另一个为备用(Standby)。在我们的配置中,chinahadoop1是Active NameNode,chinahadoop2是Standby NameNode。
**2.1. 修改配置文件**
在部署HDFS HA和Federation时,必须修改多个配置文件,包括`hdfs-site.xml`和`core-site.xml`。这些文件通常位于`$HADOOP_CONF_DIR`目录下。主要的配置调整包括:
- 设置`ha自动化故障转移`(Automatic Failover):
- `dfs.nameservices`:定义一个名称服务ID,如`my-ha`,将包含两个NameNode。
- `dfs.ha.namenodes.my-ha`:列出名称服务下的所有NameNode,如`nn1`, `nn2`。
- `dfs.namenode.rpc-address.my-ha.nn1` 和 `dfs.namenode.rpc-address.my-ha.nn2`:分别设置两个NameNode的RPC地址。
- `dfs.namenode.http-address.my-ha.nn1` 和 `dfs.namenode.http-address.my-ha.nn2`:设置HTTP访问地址。
- `dfs.client.failover.proxy.provider.my-ha`:配置客户端的故障转移代理提供者。
- 配置JournalNode:
- `dfs.journalnode.edits.dir`:指定JournalNode的编辑日志目录。
- Federation配置:
- `dfs.nameservices`:除了HA服务ID外,还可以添加其他名称服务ID。
- `dfs.ha.fencing.methods`:设置隔离活动NameNode的方法,例如SSH命令。
**2.2. 启动 JournalNode**
JournalNode是HDFS HA的关键组件,它们记录NameNode的元数据变更。在所有JournalNode节点上启动JournalNode服务,确保NameNode之间的数据同步。
**2.3. 在 Cluster1 上操作**
在Cluster1上,主要的任务是启动Active NameNode。在配置完成后,使用以下命令启动NameNode:
```bash
hdfs namenode -format -clusterId <unique_cluster_id>
start-dfs.sh
```
**2.4. 在 Cluster2 上操作**
在Cluster2上,配置备用NameNode并启动它。确保配置文件与Cluster1中的配置一致,然后启动JournalNode和Standby NameNode:
```bash
start-dfs.sh
```
**2.5. 启动 DataNode**
DataNodes是HDFS的数据存储节点。在所有数据节点上启动DataNode服务,以连接到NameNode并准备接受数据:
```bash
start-dfs.sh
```
**2.6. 启动 YARN**
YARN是Hadoop的资源管理器。在所有节点上启动ResourceManager,NodeManager和服务:
```bash
yarn resourcemanager
start-yarn.sh
```
**3. 执行一个 MapReduce 任务**
部署完成后,可以提交一个MapReduce作业测试集群。例如,运行WordCount示例:
```bash
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples.jar wordcount input output
```
**4. 停止集群**
当需要维护或更新集群时,可以按顺序停止服务:
```bash
stop-yarn.sh
stop-dfs.sh
```
**5. 自定义脚本**
根据实际需求,可以编写自定义脚本来自动化集群的启动、停止和监控。
成功部署Hadoop的HDFS HA+Federation+YARN涉及多步骤,包括配置文件的修改、各个节点服务的启动以及验证整个系统的正常运行。这个过程需要细心和耐心,但一旦完成,将提供一个高可用、可扩展的大数据处理平台。
whph
- 粉丝: 28
- 资源: 305
最新资源
- 毕设和企业适用springboot智慧交通平台类及物流管理平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及信息管理系统源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及远程教育平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及虚拟现实体验平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及用户行为分析平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及职业技能培训平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及智能客服系统源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及智能农场管理系统源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及自动化测试平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧教育平台类及AR技术平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧交通平台类及智能图像识别系统源码+论文+视频.zip
- 毕设和企业适用springboot智慧教育平台类及共享经济平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧教育平台类及大数据云平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧教育平台类及电子产品维修平台源码+论文+视频.zip
- 毕设和企业适用springboot智慧教育平台类及健康数据分析系统源码+论文+视频.zip
- 5Pin插针设备工程图机械结构设计图纸和其它技术资料和技术方案非常好100%好用.zip