没有合适的资源?快使用搜索试试~ 我知道了~
Cloudera产品高可用性配置说明1
需积分: 0 0 下载量 16 浏览量
2022-08-03
21:33:31
上传
评论
收藏 3.13MB PDF 举报
温馨提示
试读
30页
1.简介Apache Hadoop*集群中通常有多个用户长时间地运行多个作业。这些作业生成的数据分析具有商业上的重要性,可帮助公司节省大笔开支或产生收入。因此,
资源详情
资源评论
资源推荐
Cloudera 产品高可用性配置说明
包含
HDFS HA
,以及配置
CDH
其他组件如
Hive Metastore
、
Hue
、
Impala
使用
HDFS HA
版本
作者
日期
描述
1.0
李大超 (dachao.li@)
2014-11-5
适用于 CDH5.0 及以上版本
目录
1. 简介 .............................................................................................................................................................................. 4
2. 了解高可用性架构 .................................................................................................................................................... 4
2.1 高可用性设计概述 ................................................................................................................................................ 4
2.2 处理 HDFS 命名空间的更改............................................................................................................................... 5
2.3 访问 Shared Edits 目录的机制 ......................................................................................................................... 5
2.3.1 为共享存储使用 NFS ........................................................................................................................................ 5
2.3.2 为共享存储使用 Quorum Journal Manager ............................................................................................. 6
2.4 QuorumJournalManager 的功能 ..................................................................................................................... 6
2.5 QuorumJournalManager 设计概述 ................................................................................................................ 7
2.6 发送块位置信息到 NameNode ......................................................................................................................... 7
2.7 和 NameNode 的客户端通信 ............................................................................................................................ 8
2.8 NameNode 故障恢复 ............................................................................................................................................ 8
2.8.1 人工故障恢复 ..................................................................................................................................................... 8
2.8.2 自动故障恢复 ..................................................................................................................................................... 8
2.9 通过隔离防止脑裂现象 ..................................................................................................................................... 10
2.9.1 Fencing of the Shared Edit Directory on a NFS..................................................................................... 10
2.9.2 Fencing of the Shared Edit Directory in QuorumJournalManager ............................................... 10
3. 设置高可用性的要求 .............................................................................................................................................. 12
4. 设置高可用性 ........................................................................................................................................................... 13
4.1 使用 QuorumJournalManager 进行共享存储 ........................................................................................... 13
5. 配置 CDH 其他组件使用 HDFS 高可用性 ........................................................................................................ 20
5.1 配置 Hive Metastore 使用 HDFS 高可用性 ................................................................................................ 20
5.2 配置 Hue 使用 HDFS 高可用性 ...................................................................................................................... 23
5.3 配置 Impala 使用 HDFS 高可用性 ................................................................................................................ 29
6. 参考 ............................................................................................................................................................................ 30
1. 简介
Apache Hadoop*集群中通常有多个用户长时间地运行多个作业。这些作业生成的数据分析
具有商业上的重要性,可帮助公司节省大笔开支或产生收入。因此,集群的高可用性至关重要,
几分钟、几小时或几天的宕机可能花费大量的金钱。
系统管理员面对的问题主要是 Primary NameNode 的单点故障。如果其中一个服务失败,
则在问题解决前集群功能将不可用。而且,这些故障可能需要花费大量的时间和人力去解决,这
将导致长时间宕机,这对公司业务尤其是关键业务来说是不可接受的。
要解决这些问题,Cloudera 产品支持 HDFS 的高可用性(High Availability)功能。HDFS
高可用性是 Apache Hadoop*实施的一个开源解决方案。
本文将介绍如何为 Cloudera 产品设置高可用性。
2. 了解高可用性架构
高可用性功能支持 Primary NameNode 的 active-standby 配置。这表示 Primary
NameNode 在另一个节点上有一个完全冗余的对象,它只有当 Primary NameNode 发生故障时
会被激活。Primary NameNode 的冗余对象被称为 Standby NameNode。
Primary NameNode 负责集群中的 HDFS 操作,比如从 HDFS 读取文件并写入文件到
HDFS。Standby Namenode 的作用是维护 HDFS 集群的状态,以便提供热备份。热备份是指如
果 Primary NameNode 发生故障时,能立即切换到 Standby NameNode 而不会产生服务中断的
情况。
2.1 高可用性设计概述
要成为热备份,Standby Namenode 必须对以下数据有连续的、即时的读取权限:
HDFS 命名空间的更改,比如重命名、删除或创建文件。
Primary NameNode 存储编辑日志到一个名为 Shared Edits 的特定目录下。Standby
NameNode 对此目录的文件有读的权限,因此可根据存储在编辑日志中的数据来更新 HDFS 结
构。这意味着对 Primary NameNode 命名空间做出的任何更改都将被复制到 Standby
NameNode 的命名空间。
DataNode 已被配置为可同时发送块位置信息到 Primary NameNode 和 Standby NameNode。
2.2 处理 HDFS 命名空间的更改
当客户端在 HDFS 上执行写操作时,这一事件将首先被记录在预写式日志,或编辑日志。一
旦编辑日志更改成功,Primary NameNode 的文件系统结构的内存中信息将被更新。Standby
NameNode 文件系统结构必须和 Primary NameNode 的文件系统结构完全相同。这意味着
Standby Namenode 必须对 Primary NameNode 的编辑日志有读的权限。
高可用性设计使用 shared edits 目录来达到这一要求。此目录是 Primary NameNode 存储和
更新编辑日志文件的目录,也是 Standby NameNode 读取编辑日志的目录。Standby
NameNode 使用编辑日志中的信息来更新 HDFS 命名空间的内存中信息。此外,Standby
NameNode 不可改动编辑日志,只能读取。通过这些操作,Standby NameNode 确保了 HDFS
文件结构会一直和 Primary NameNode 保持一致。
如果发生故障切换,Standby NameNode 将确认在激活前它已读取所有编辑日志中的信息并
更新了命名空间。因此,Standby NameNode 在成为 Primary NameNode 之前,它的命名空间
将保持和 Primary NameNode 同步。
2.3 访问 Shared Edits 目录的机制
Shared Edits 目录必须可被二个 NameNode 访问,且都对此目录的文件有读/写权限。此外,
NameNode 必须能不间断地读/写此目录,且二个 NameNode 都能一直访问同样的数据。高可
用性 HDFS 支持以下二种授权 NameNode 访问 Shared Edits 目录的方式:
网络文件共享(NFS)
Quorum Journal Manager
2.3.1 为共享存储使用 NFS
Shared Edits 目录可被放在服务器的某个目录,即 NFS 挂载 NameNode 的服务器。你可能
只有一个 Shared Edits 目录,因此 NFS 将会成为 HDFS 单点故障所在点。如果 NFS 出现问题,
则 HDFS 客户端将不能写入数据到 HDFS。因此,存储 Shared Edits 目录的服务器应被配置为
高可用、高质量的专用 NAS 设备。
剩余29页未读,继续阅读
食色也
- 粉丝: 28
- 资源: 351
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0