李中欢_大数据作业四1
大数据作业四HBase知识点总结 HBase是Hadoop数据库,能够随机访问、实时存储和检索大数据平台。它的目标是在集群环境下支持大表的高性能访问。HBase是一个基于HDFS的面向列的分布式数据库,支持实时的随机访问超大规模数据集。 1. HBase的表结构: HBase表可以有数十亿行,上百万列。每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列。 2. 面向列(族)的存储和权限控制: HBase表中的数据都是字节数组,没有类型。数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳。每个单元中的数据可以有多个版本。 3. 行键和列族: 行由行键标识,行键可以是任意字节数组。表中数据都是根据行关键字进行排序的,排序使用的是字典顺序。用户通过选择合适的行关键字,可以在数据访问时有效利用数据的位置相关性。 4. 列族和列限定符: HBase并不是简单地存储所有的列关键字,而是将其组织成所谓的列族(Column Family)。列族是访问控制的基本单位,每个族中的数据都属于同一个类型,并且同族的数据会被压缩在一起保存。 5. HFile和Store: HBase的物理存储是基于HDFS的。Table中的所有行都按照rowkey的字典序排列。Table在行的方向上分割为多个Region。Region本质上是以行键排序的连续存储区间。Region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分成两个新的region,之后会有越来越多的region。 6. Region和Store: Region是Hbase中扩展和负载均衡的基本单元。Region按大小分割的,每个Region的最佳大小是1GB~2GB。每个Region又由一个memStore和多个StoreFile组成。StoreFile以HFile格式保存在HDFS中。 7. MemStore和StoreFile: MemStore是RegionServer上的一段内存空间;StoreFile是HDFS中的一个HFile文件。数据库操作会先存入MemStore,当MemStore满了后会转存到StoreFile中。1个Store可包含多个StoreFile,并建立了StoreFile索引。 8. HFile的结构: HFile分为六个部分:Data Block、Meta Block、FileInfo、Data Block Index、Meta Block Index和Trailer。读取HFile时会首先读取Trailer,然后,DataBlockIndex会被读取到内存中,当检索某个key时,不需要扫描整个HFile。 HBase是基于HDFS的面向列的分布式数据库,能够随机访问、实时存储和检索大数据平台。它的表结构、面向列的存储和权限控制、行键和列族、HFile和Store等特点使其能够高效地存储和检索大规模数据集。
- 粉丝: 14
- 资源: 318
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 电气类117、变电站真实巡检电力设备检测数据集(7500多张+15类+YOLO格式txt标签)-第二部分
- 电气类、117.变电站真实巡检电力设备检测数据集(7500多张+15类+YOLO格式txt标签)-第一部分
- IMG_20180720_124347_01.jpg
- IMG20240621095811.jpg
- jQuery 库.docx
- 基于 C 实现的图像处理(BMP)课程设计
- ST MCSDK 6.3.0
- 基于 C++实现的虚拟航班订票系统【C++课程设计】
- 111111111111111111
- 海信智能电视刷机数据 LED43K5100U(0000) 生产用软件数据 务必确认机编一致 强制刷机 整机USB升级程序
评论0