华为大数据考试资料.pdf_hbase选举通过ZooKeeper进行裁决资源-CSDN文库

需积分: 37 65 浏览量 2021-09-18 20:58:25 上传评论收藏 403KB PDF 举报

华为大数据考试资料详细知识点如下： 1. HBase主要特点：HBase是一个分布式、面向列的存储系统，它具有高可靠性、高性能和可伸缩性。面向列存储意味着数据按列进行存储，而不是按行，这种设计使得HBase在处理大量数据时能够非常高效。 2. HBase默认使用HDFS：HBase内部使用Hadoop分布式文件系统(HDFS)作为底层存储，这是因为HBase利用了HDFS的高容错性和可扩展性特点来存储其数据文件。 3. HBase不适合ACID特性应用场景：HBase没有实现完整的ACID特性（原子性、一致性、隔离性和持久性），因为它更多地追求高可用性和高并发处理，而非数据库事务处理。 4. HBase存储模型：HBase的存储模型以KeyValue的形式存在，包含时间戳、类型等关键信息。同一Key可以关联多个Value，每个KeyValue都有一个Qualifier标识，如果Key相同而Qualifier也相同，则可以通过时间戳来区分不同的Value。 5. HBase分布式存储单元：Region是HBase分布式存储的基本单元，每一个Region负责存储表的一部分数据。 6. HBase数据文件HFile：HFile是HBase中数据存储的文件格式，它包含了KeyValue格式的数据，其中包括Key、Value、TimeStamp、KeyType等。 7. Region分裂：当HBase中的Region大小逐渐变大时，它会产生分裂，即拆分为两个较小的Region，以维护系统的高效运行。 8. HMaster功能：HMaster是HBase集群中的主服务器，负责RegionServer的负载均衡，建表/修改表/删除表的操作，以及Region的负载均衡和分裂后的Region分配。当RegionServer失效时，HMaster还会负责Region的迁移。 9. HMaster选举：HBase使用ZooKeeper来进行主HMaster的裁决选举，以确保集群中有且只有一个活跃的主HMaster。 10. Region管理：HBase中的Region由HRegionServer进程管理，负责处理用户的数据读写请求，进行数据处理和计算，同时管理所有的Region。Region可以在不同的RegionServer之间迁移。 11. Region物理存储单元：在HBase中，Region的物理存储单元是ColumnFamily（列族），每个列族下可以有多个列限定符。 12. HBase二级索引：HBase支持二级索引，它通过将要查找的列与RowKey关联来创建新的索引表，使得查询更加灵活。二级索引会增加查询次数，因为查询分为两次：一次是通过二级索引表查询到RowKey，第二次是通过RowKey获取完整的行数据。 13. 统一用户管理系统：在大数据平台中，通过统一用户管理系统可以实现各种开源组件应用系统的用户、角色和组织机构统一化管理，以及实现应用系统间跨域的单点登录登出和统一的身份认证功能。 14. 统一认证管理系统：主流厂商的统一认证管理系统通常由统一认证管理模块、统一身份认证服务器和身份信息存储服务器组成。 15. LdapServer功能：在华为大数据解决方案中，LdapServer作为目录服务系统，基于OpenLDAP开源技术实现，以BerkeleyDB作为后端数据库，支持LDAP标准协议，并支持TCP/IP协议。它可以实现对大数据平台账号的集中管理。 16. LdapServer组织模型：LdapServer的目录信息以树形结构存储，每个节点被称为条目，并拥有唯一的名称DN（Distinguished Name）。树根一般定义为域名dc（Domain Component）。 17. LdapServer存储模式：类似于关系型数据库，LdapServer的域名dc可以比作数据库，组织单位ou类似于表的集合，用户uid类似于表中的主键，对象名称cn类似于表中数据的名称。 18. LdapServer操作：LdapServer能够支持查询、更新、认证等不同类别的操作。 19. LdapServer组管理：LdapServer中的Group（组）用于对用户进行统一的组管理。如果用户被添加到某个组中，该组的member属性中就会添加成员的dn（Distinguished Name）记录。以上知识涵盖了HBase的基本架构、存储原理、操作机制、特性、应用场景、以及华为大数据解决方案中LdapServer的相关知识点。通过这些知识，可以对华为大数据考试内容有一个全面的理解和准备。

资源推荐

资源详情

资源评论

1 hbase 的主要特点有高可靠性、高性能、面向列额、可伸缩

2 hbase 默认使用 HDFS 作为其底层文件存储系统

3 HBase 不适合具有完全 ACID 特性的应用场景

4 HBase 存储模型哪些正确：KeyValue 中拥有时间戳、类型等关键信息、同一

个 Key 值可以关联多个 Value、每一个 KeyValue 都拥有一个 Qualifier 标识、

即使 Key 相同 Qualifier 也相同的多个 KeyValue，也可能有多个值，此时以时

间戳来区分。

5 HBase 底层数据是以 KeyValue 的形式存在的。

6 HBase 的分布式存储最基本的单元是 Region.

7 HBase 的数据文件 HFile 中一个 KeyValue 格式包含 Key、Value、TimeStamp、

KeyType 等内容。

8 Hbase 中当一个 Region 的 size 逐渐变大时，它会产生分裂。

9 关于 HBase 中 HMaster 的功能：负责 RegionServer 的负载均衡、负责建表/

修改表/删除表、Region 负载均衡，Region 分裂以及分裂后的 Region 分配、

RegionServer 失效后的 Region 迁移。

10 HBase 的主 HMaster 是通过 ZooKeeper 进行裁决选举的。

11 HBase 的 Region 是由 HRegionServer 进程来管理的。

12 HBase 中 RegionServer 是 HBase 的数据服务进程，负责处理用户数据的读

写请求、HBase 的数据处理和计算单元、管理所有的 Region，Region 可以在

RegionServer 之间迁移。

13 HBase 中 Region 的物理存储单元是 ColumnFamily。

14 HBase 中数据存储的文件格式是 HFile。

15 HBase 的某张表的 RowKey 划分 SplitKey 为 9,E,a,z，那么该表有 5 个

Region。

18 HBase 读取数据流程中涉及的角色或服务：ZooKeeper、HDFS、

HRegionServer

19 HBase 中以下会触发 Flush 操作场景：Region 中 MemStore 的总大小，达到

了预设的 Flush Size 阈值、MemStore 占用内存的总量和 RegionServer 总内存

比值超出了预设的阈值大小、当 WALs 中文件数量达到阈值时、HBase 定期刷新

Memstore，默认周期为 1 小时。

23 HBase 中 OpenScanner 的过程，会创建两种不同的 Scanner 来读取 HFile 和

MemStore 的数据。HFile 对应的 Scanner 为 StoreFileScanner，MemStore 对应

的 Scanner 为 MemStoreScanner。

24 HBase 的 BloomFilter 不是用来过滤数据的。

25 HBase 二级索引：二级索引把要查找的列与 rowkey 关联成一个索引表、此

时列成新的 rowkey，原 rowkey 成为 value、二级索引查询了 2 次。

29 在大数据平台中通过统一用户管理系统,可以实现平台中的各种开源组件应

用系统的用户、角色和组织机构统一化管理，实现各种应用系统间跨域的单点

登录登出和统一的身份认证功能。

30 目前主流厂商的统一认证管理系统可以由统一认证管理模块、统一身份认证

服务器、身份信息存储服务器组成。

31 华为大数据解决方案中，LadpServer 作为目录服务系统，能够实现对大数

据平台的账号进行集中管理，对于 LdapServer 表述：LdapServer 基于

OpenLDAP 开源技术实现、LdapServer 以 Berkeley DB 作为默认的后端数据库、

LdapServer 是基于 LDAP 标准协议的一种具体开源实现、LdapServer 支持

TCP/IP 协议。

32 LdapServer 组织模型：LdapServer 目录信息是基于树形结构来进行组织和

存储的、LdapServer 目录树中的每一个节点都被称作条目，并且拥有自己的唯

一可区别的名称 DN(Distinguished Name)、LdapServer 目录树的树根一般定义

域名 dc(Domain Component)。

33 LdapServer 树结构数据库的存储模式：域名 dc(Domain Component)类似于

关系型数据库中的 DataBase、组织单位 ou(organization unit)类似于

DataBase 数据库中 table 的集合、用户 uid(User ID)类似于 table 中的主键、

对象的名称 cn(Common Name)类似于 table 中单位数据的名称。

34 华为大数据平台中的 LdapServer 能支持查询、更新、认证等不同类别的操

作。

35 LdapServer 的 Group(组)是对用户进行统一的组管理，如果用户添加到该组

中，该组的 member 属性中就会添加成员的 dn 记录。

36 不属于单点登录：访问其他组件需要重新登录

37 不属于 KrbServer 核心要素：Kerberos KDC Client

38 Kerberos 作为认证服务器中心，能够向集群内所有服务以及客户的二次开

发应用提供统一的认证服务。

39 在统一认证的过程中，Kerberos 的所有数据，包含用户的密码，用户的附

属信息（例如用户归属组信息）需要每次都从 Ldap 获取。

40 Kerberos 的优势：能够防止暴力破解、防止重放攻击、支持双向鉴别、拥

有较高的性能。

41 为了考虑性能最优化，建议将所有集群中 LdapServer 都与 KrbServer 部署

在相同节点上。

42 Ldap 默认使用端口：UDP 389

43 Kerberos 服务角色中，KerberosServer 主要是提供认证功能，

KerberosAdmin 主要提供用户管理功能。

---------------------------------------------------------------------

HIVE

1. 在 Hive 中，建表时可以指定桶的个数，数据可以根据桶的方式将不同数据

放入不同桶中，分桶的好处是可以活得更好的查询处理效率，使得抽样更高

效。

2. 建表、修改表、删除表属于 HQL 中的 DDL。

3. 可直接将本地路径的文件、HDFS 上的文件 load 到 Hive 表中，或者将其他

表的结果集 insert into 到 Hive 表。

4. GROUP BY，UNION ALL，JOIN 操作可以合并。

5. HIVE 支持灵活方便的 ETL，可直接访问 HDFS 以及 Hbase，切易用易编程。

6. Hive 不能用于实时的在线数据分析。

7. Hive 不可以实现在大规模数据集上低延迟快速查询的操作。

8. 若一个 HiveServer 不可用，整个 Hive 集群仍然可以正确使用。

9. 在 WebHCat 架构中，用户能够通过安全的 HTTPS 协议执行以下操作：Hive

DDL 操作，运行 MapReduce 任务，运行 Hive Hql 任务。

10. 数据库、表、分区、桶属于 Hive 的数据存储模型。

11. “ALTER TABLE employee ADD columns(columm1 string);”是增加列的操

剩余8页未读，继续阅读

评论收藏

内容反馈

-.-

粉丝: 2
资源: 5

华为大数据考试资料.pdf

2021华为HCIA大数据最新题库.rar

华为HCIA-Big Data V3.0大数据培训教材和实验手册.rar

华为大数据认证HCIP-Big Data Developer H13-723大数据题库

华为大数据认证.pdf

华为Big_Data-Data 华为 大数据考试全部教材

HCIA-Big Data考试题库.zip

HCIA-bigdata题库更新时间-20200101.pdf

华为大数据认证HCIA-Bigdata 题库 含答案

华为大数据认证介绍.pptx

华为FusionInsight大数据解决方案.pdf

中国电信携手华为共拓云计算及大数据新领域.pdf

中国电信携手华为，共拓云计算及大数据新领域.pdf

华为FusionInsight HD大数据产品概述.pdf

华为智慧税务系统架构解决方案（大数据区块链）.pdf

华为&中软国际金融业大数据解决方案.pdf

华为FusionInsight大数据平台介绍.pptx

华为大数据认证体系介绍.pdf

华为大数据认证：大数据技术概述.pptx

华为FusionInsight大数据案例集.zip

华为设备ptnL考试.pdf

总结华为云解决方案.pdf

华为防火墙snmp配置.pdf

企业战略管理课后4-6章作业——华为 (2).pdf

Java面试题集锦6：华为面试题 管理资料.pdf

华为FusionInsight HD 2.8大数据平台Data Sheet.pdf

华为设备常用命令--华为交换机常用命令---华为路由器常用命令.pdf

HarmonyOS应用开发者高级认证题库（覆盖99%考题）

华为OD机考100题（含答案）.docx

最新资源

华为Big_Data-Data 华为大数据考试全部教材

华为大数据认证HCIA-Bigdata 题库含答案

Java面试题集锦6：华为面试题管理资料.pdf