【免费】11-Hadoop部署多机HDFS+HA+Federation+YARN1资源-CSDN文库

需积分: 0 200 浏览量更新于2022-08-03 收藏 1.15MB PDF 举报

在IT领域，Hadoop是一个广泛使用的开源框架，用于存储和处理大数据。本文将详细解析如何在多机环境中部署Hadoop的HDFS（Hadoop Distributed File System）高可用性（HA）、Federation以及YARN（Yet Another Resource Negotiator）组件。我们将按照步骤进行，确保每个环节的正确设置和启动。我们来看集群环境的节点分布： - JournalNode：这些节点负责维护HDFS的元数据，包括chinahadoop2、chinahadoop3和chinahadoop4。 - Cluster1 HA：此集群包含两个NameNode，一个为主（Active），另一个为备用（Standby）。在我们的配置中，chinahadoop1是Active NameNode，chinahadoop2是Standby NameNode。 **2.1. 修改配置文件** 在部署HDFS HA和Federation时，必须修改多个配置文件，包括`hdfs-site.xml`和`core-site.xml`。这些文件通常位于`$HADOOP_CONF_DIR`目录下。主要的配置调整包括： - 设置`ha自动化故障转移`（Automatic Failover）： - `dfs.nameservices`：定义一个名称服务ID，如`my-ha`，将包含两个NameNode。 - `dfs.ha.namenodes.my-ha`：列出名称服务下的所有NameNode，如`nn1`, `nn2`。 - `dfs.namenode.rpc-address.my-ha.nn1` 和 `dfs.namenode.rpc-address.my-ha.nn2`：分别设置两个NameNode的RPC地址。 - `dfs.namenode.http-address.my-ha.nn1` 和 `dfs.namenode.http-address.my-ha.nn2`：设置HTTP访问地址。 - `dfs.client.failover.proxy.provider.my-ha`：配置客户端的故障转移代理提供者。 - 配置JournalNode： - `dfs.journalnode.edits.dir`：指定JournalNode的编辑日志目录。 - Federation配置： - `dfs.nameservices`：除了HA服务ID外，还可以添加其他名称服务ID。 - `dfs.ha.fencing.methods`：设置隔离活动NameNode的方法，例如SSH命令。 **2.2. 启动 JournalNode** JournalNode是HDFS HA的关键组件，它们记录NameNode的元数据变更。在所有JournalNode节点上启动JournalNode服务，确保NameNode之间的数据同步。 **2.3. 在 Cluster1 上操作** 在Cluster1上，主要的任务是启动Active NameNode。在配置完成后，使用以下命令启动NameNode： ```bash hdfs namenode -format -clusterId <unique_cluster_id> start-dfs.sh ``` **2.4. 在 Cluster2 上操作** 在Cluster2上，配置备用NameNode并启动它。确保配置文件与Cluster1中的配置一致，然后启动JournalNode和Standby NameNode： ```bash start-dfs.sh ``` **2.5. 启动 DataNode** DataNodes是HDFS的数据存储节点。在所有数据节点上启动DataNode服务，以连接到NameNode并准备接受数据： ```bash start-dfs.sh ``` **2.6. 启动 YARN** YARN是Hadoop的资源管理器。在所有节点上启动ResourceManager，NodeManager和服务： ```bash yarn resourcemanager start-yarn.sh ``` **3. 执行一个 MapReduce 任务** 部署完成后，可以提交一个MapReduce作业测试集群。例如，运行WordCount示例： ```bash hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples.jar wordcount input output ``` **4. 停止集群** 当需要维护或更新集群时，可以按顺序停止服务： ```bash stop-yarn.sh stop-dfs.sh ``` **5. 自定义脚本** 根据实际需求，可以编写自定义脚本来自动化集群的启动、停止和监控。成功部署Hadoop的HDFS HA+Federation+YARN涉及多步骤，包括配置文件的修改、各个节点服务的启动以及验证整个系统的正常运行。这个过程需要细心和耐心，但一旦完成，将提供一个高可用、可扩展的大数据处理平台。