没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据HbaseHbase优化-参数优化

Hbase优化-参数优化

hbase

大数据平台

1 下载量 78 浏览量 2022-11-28 11:17:12 上传评论收藏 57KB DOC 举报

温馨提示

试读

19页

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。 1. 表的设计 2. 写表操作 3. 读表操作 4. 数据计算

资源详情

资源评论

本文主要是从 HBase 应用程序设计与开发的角度，总结几种常用的性能优化方

法。有关 HBase 系统配置级别的优化，这里涉及的不多

1. 表的设计

1.1 Pre-Creating Regions

默认情况下，在创建 HBase 表的时候会自动创建一个 region 分区，当导入

数据的时候，所有的 HBase 客户端都向这一个 region 写数据，直到这个 region

足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空

的 regions，这样当数据写入 HBase 时，会按照 region 分区情况，在集群内做

数据的负载均衡。

有关预分区，详情参见：Table Creation: Pre-Creating Regions，下面是一

个例子：

public static boolean createTable(HBaseAdmin admin, HTableDescriptor

table, byte[][] splits)

throws IOException {

try {

admin.createTable(table, splits);

return true;

} catch (TableExistsException e) {

logger.info("table " + table.getNameAsString() + " already exists");

// the table already exists...

return false;

}

public static byte[][] getHexSplits(String startKey, String endKey, int

numRegions) {

byte[][] splits = new byte[numRegions-1][];

BigInteger lowestKey = new BigInteger(startKey, 16);

BigInteger highestKey = new BigInteger(endKey, 16);

BigInteger range = highestKey.subtract(lowestKey);

BigInteger regionIncrement =

range.divide(BigInteger.valueOf(numRegions));

lowestKey = lowestKey.add(regionIncrement);

for(int i=0; i < numRegions-1;i++) {

BigInteger key =

lowestKey.add(regionIncrement.multiply(BigInteger.valueOf(i)));

byte[] b = String.format("%016x", key).getBytes();

splits[i] = b;

}

return splits;

}

1.2 Row Key

HBase 中 row key 用来检索表中的记录，支持以下三种方式：

� 通过单个 row key 访问：即按照某个 row key 键值进行 get 操作；

� 通过 row key 的 range 进行 scan ：即通过设置 startRowKey 和

endRowKey，在这个范围内进行扫描；

� 全表扫描：即直接扫描整张表中所有行记录。

在 HBase 中，row key 可以是任意字符串，最大长度 64KB，实际应用中一

般为 10~100bytes，存为 byte[]字节数组，一般设计成定长的。

row key 是按照字典序存储，因此，设计 row key 时，要充分利用这个排序

特点，将经常一起读取的数据存储到一块，将最近可能会被访问的数据放在一块。

举个例子：如果最近写入 HBase 表中的数据是最可能被访问的，可以考虑将

时间戳作为 row key 的一部分，由于是字典序排序，所以可以使用

Long.MAX_VALUE - timestamp 作为 row key，这样能保证新写入的数据在读

取时可以被快速命中。

1.3 Column Family

不要在一张表里定义太多的 column family。目前 Hbase 并不能很好的处理

超过 2~3 个 column family 的表。因为某个 column family 在 flush 的时候，

它邻近的 column family 也会因关联效应被触发 flush，最终导致系统产生更多

的 I/O。感兴趣的同学可以对自己的 HBase 集群进行实际测试，从得到的测试

结果数据验证一下。

1.4 In Memory

创建表的时候，可以通过 HColumnDescriptor.setInMemory(true)将表放到

RegionServer 的缓存中，保证在读取的时候被 cache 命中。

1.5 Max Version

创建表的时候，可以通过

HColumnDescriptor.setMaxVersions(int maxVersions)设置表中数据的最大

版本，如果只需要保存最新版本的数据，那么可以设置 setMaxVersions(1)。

1.6 Time To Live

剩余18页未读，继续阅读

评论收藏

内容反馈

Hbase优化-参数优化

评论0

最新资源

Hbase优化-参数优化

评论0

最新资源

相关推荐

Hbase参数优化

基于Hbase的大数据查询优化

Hadoop集群（第12期副刊）_Hbase性能优化

基于Hbase的列式存储压缩策略的优化

大数据环境下基于Hbase的分布式查询优化研究.pdf

HBase性能优化指南

HBase的性能优化

基于机器学习的HBase配置参数优化研究.pdf

HBase参数修改.pdf

Hbase性能优化百科全书（csdn）————程序.pdf

05-Hbase安装部署及优化.pdf

大数据开发之案例实践Hbase的设计及企业优化视频教程（视频+讲义+笔记+配置+代码+练习）

聊聊Hbase存储优化那些事（下）.pdf

聊聊Hbase存储优化那些事（上）.pdf

HBase优化实战

HBase最佳实践－读性能优化策略

基于Spark streaming+Kafka+Redis/HBase的GBDT+LR推荐排序模型

基于spark streaming和kafka，hbase的日志统计分析系统+源代码+文档说明

基于spark streaming+flume+kafka+hbase的实时日志处理分析系统+源代码+文档说明

基于Spark的实时日志分析及异常检测系统+源代码+文档说明

HBase性能调优

基于flume+kafka+HBase+spark+ElasticSearch的用户轨迹查询大数据开发项目+源代码+文档说明

论文研究-文本挖掘中一种基于参数估计的语句分块方案研究.pdf

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

20190417某大数据中心项目建设设计方案

实验四：NoSQL和关系数据库的操作比较

hbase-2.0.2.3.1.4.0-315-bin.tar.gz

hbase导入测试数据集

高铁铁路数据.zip

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar )