Hbase.docx资源-CSDN文库

需积分: 1 89 浏览量 2024-03-12 16:50:35 上传评论收藏 3.28MB DOCX 举报

资源推荐

资源详情

资源评论

一、概述：

Hbase 高并发的读写优化问题-M：

https://blog.csdn.net/u013939918/article/details/70833480

LSM 树-M

� 哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺

序扫描，对应的存储系统为 key-value 存储系统。对于 key-value 的插入以及查询，哈

希表的复杂度都是 O(1)，明显比树的操作 O(n)快,如果不需要有序的遍历数据，哈希表

就是 your Mr.Right

� B 树存储引擎是 B 树（关于 B 树的由来，数据结构以及应用场景可以看之前一篇博文）

的持久化实现，不仅支持单条记录的增、删、读、改操作，还支持顺序扫描（B+树的叶

子节点之间的指针），对应的存储系统就是关系数据库（Mysql 等）。

� B+树

根节点和枝节点很简单，分别记录每个叶子节点的最小值，并用有一个指针指向叶子节点。

叶子节点里每个键值都指向真正的数据块(如 oracle 里的 rowId),每个叶子节点都有前指

针和后指针，这是为了做范围查询时，叶子节点间可以直接跳转，从而避免再去回溯至枝

节点和根节点。

B+树最大的性能问题是会产生大量的随机 IO,随着新数据的插入，叶子节点会慢慢分裂，

逻辑上连续的叶子节点在物理上往往不连续，甚至分离的很远，但做范围查询时，会产生

大量读随机 IO.

� LSM 树（Log-Structured Merge Tree）存储引擎和 B 树存储引擎一样，同样支持增、

删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写入问题。当然凡事有

利有弊，LSM 树和 B+树相比，LSM 树牺牲了部分读性能，用来大幅提高写性能。

通过以上的分析，应该知道 LSM 树的由来了，LSM 树的设计思想非常朴素：将对数据的修改

增量保持在内存中，达到指定的大小限制后将这些修改操作批量写入磁盘，不过读取的时候稍

微麻烦，需要合并磁盘中历史数据和内存中最近修改操作，所以写入性能大大提升，读取时可

能需要先看是否命中内存，否则需要访问较多的磁盘文件。极端的说，基于 LSM 树实现的

HBase 的写性能比 Mysql 高了一个数量级，读性能低了一个数量级。

LSM 树原理把一棵大树拆分成 N 棵小树，它首先写入内存中，随着小树越来越大，内存中的

小树会 flush 到磁盘中，磁盘中的树定期可以做 merge 操作，合并成一棵大树，以优化读性

能。

以上这些大概就是 HBase 存储的设计主要思想，这里分别对应说明下：

� 因为小树先写到内存中，为了防止内存数据丢失，写内存的同时需要暂时持久化到磁盘，

对应了 HBase 的 MemStore 和 HLog

� MemStore 上的树达到一定大小之后，需要 flush 到 HRegion 磁盘中（一般是 Hadoop

DataNode），这样 MemStore 就变成了 DataNode 上的磁盘文件 StoreFile，定期 H

RegionServer 对 DataNode 的数据做 merge 操作，彻底删除无效空间，多棵小树在这

个时机合并成大树，来增强读性能

LSM tree，理论上，可以是内存中树的一部分和磁盘中第一层树做 merge,对于磁盘中的树

直接做 update 操作有可能会破坏物理 block 的连续性，但是实际应用中，一般 lsm 有多层，

当磁盘中的小树合并成一个大树的时候，可以重新排好顺序，使得 block 连续，优化读性

能。

Hbase 在实现中，是把整个内存在一定阈值后，flush 到 disk 中，形成一个 file，这个 file 的

存储也就是一个小的 B+树，因为 hbase 一般是部署在 hdfs 上，hdfs 不支持对文件的

update 操作，所以 hbase 这么整体内存 flush，而不是和磁盘中的小树 merge update,这个

设计也能讲通了。内存 flush 到磁盘上的小树，定期也会合并成一个大树。整体上 hbase 就

是用 lsm tree 的思路。

Hbase 中 meta 表存储在哪？

WAL：(Write Ahead Log),很简单，因为数据是先写到内存中，如果断电，内存中的数据会

丢失，因此为了保护内存中的数据，需要在磁盘上先记录 logfile，当内存中的数据 flush 到

磁盘上时，就可以抛弃相应的 Logfile.

Memstor,storefile LSM 树就是一堆小树，在内存中的小树即 memstore 每次 flush，内存中

的 memstore 变成磁盘上一个新的 storefile.

剩余50页未读，继续阅读

内容反馈

大数据侠客

粉丝: 708
资源: 76

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip