没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据Hadoop聊聊Hbase存储优化那些事（下）.pdf

聊聊Hbase存储优化那些事（下）.pdf

数据分析

数据挖掘

hadoop

zookeeper

需积分: 0 0 下载量 164 浏览量 2023-05-19 14:39:40 上传评论收藏 2.21MB PDF 举报

温馨提示

试读

17页

大数据（Big Data）是指规模庞大、复杂度高且难以用传统数据处理方法进行捕捉、管理和处理的数据集合。它通常具有以下三个特征：数据量大：大数据指的是数据集的规模非常庞大，远远超出了传统数据处理工具的能力范围。这些数据集可能包含数十亿甚至数万亿的记录。复杂度高：大数据往往包含多种类型和格式的数据，例如结构化数据（如关系型数据库中的数据）、半结构化数据（如XML文件）和非结构化数据（如文本、图像和音频等）。这些数据的复杂性使得处理和分析变得更加困难。处理速度快：大数据处理要求在短时间内处理和分析大规模的数据。传统的数据处理方法往往无法满足实时或近实时处理的需求。大数据的出现主要是由于以下几个因素的影响：数据的爆发性增长：随着互联网的普及和各种传感器、设备的广泛应用，数据的产生和积累呈现爆发式增长的趋势。新型数据源的涌现：除了传统的结构化数据，越来越多的非结构化和半结构化数据源涌现，例如社交媒体数据、日志文件、传感器数据、地理位置数据等。技术的进步：大数据处理的技术工具和技术方法得到了快速发展，例如分布式计算、云计算、并行处理、机器学习和人工智能等技术的应用，使得大数据的存储、管理和分析变得可行和高效。大数据的处理和分析可以带来许多潜在的好处，包括更深入的洞察力、更准确的决策支持、更精细的个性化服务、更高效的资源利用和创新等。在各个领域，如商业、医疗、金融、交通、科学研究等，大数据正发挥着重要的作用，并为我们带来了新的机遇和挑战。

资源推荐

资源详情

资源评论

hbase的hbase-1.2.0-cdh5.14.2.tar.gz资源包

hbase-1.2.1-bin.tar.gz.zip 提示：先解压再使用，最外层是zip压缩文件

Hbase-1.2.4-bin.tar.gz，HBASE的Linux版安装包。Hadoop学习必备

HBASE技术架构及应用介绍.pdf

5星 · 资源好评率100%

HBASE技术架构及应用介绍.pdf

hive数据导入hbase

1.1使用hbase外表方式加载

在hive中创建hbase外表，并指定hbase表名，将hbase映射到hive表。在hive中向hbase

外表中插入数据，将数据同步到hbase中。

-- 创建hbase外表

create table xxxx.source_table4hbase2(

key string,

pk string,

col1 string,

col2 string

)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" =":key,cf:pk,cf:col1,cf:col2")

TBLPROPERTIES("hbase.table.name" = "xxxx:dataload2");

-- 如果使用hive内表的方式创建hbase关联表，hbase表如果不存在则会自动创建。

-- 查询hive表数据插入到hbase外表中

insert into table xxxx.source_table4hbase select concat(pk,col1) key,pk pk,col1 col1,col

insert into table xxxx.source_table4hbase2 select concat(pk,col1) key,pk pk,col1 col1,co

-- 如果使用hive内表的方式创建hbase关联表，删除hive表的时候会同时删除掉hbase的表

-- 所以我们使用的时候通常采用hive外表的方式

create external table xxxx.source_table4hbase2(

key string,

pk string,

col1 string,

col2 string

)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" =":key,cf:pk,cf:col1,cf:col2")

TBLPROPERTIES("hbase.table.name" = "xxxx:dataload2");

-- 如果使用的是hive的外表的形式创建的hbase的关联表则需要先创建hbase的表

insert into table xxxx.source_table4hbase2 select concat(pk,col1) key,pk pk,col1 col1,co

1.2importTSV+bulkload

查看hive表结构

show create table source_table1;

查看hive表建表语句

在hbase中创建表，并指定列族与压缩格式，hbase建表dataload2

create 'xxxx:dataload3',{NAME => 'cf',COMPRESSION => 'SNAPPY'}

使用importTSV生成hfile文件

-Dimporttsv.separator指定分隔符

-Dimporttsv.columns指定列映射：HBASE_ROW_KEY强制要求写，cf:pk指定rowkey字段，其他字段与hive表中

-Dimporttsv.skip.bad.lines是否跳过无效行

-Dimporttsv.bulk.output：hfile输出路径

xinniu:dataload2：hbase表名

hdfs://ns1/hive/warehouse/xinniu.db/source_table/datatime=20210107/sourcedata-20210107：

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator='|' -Dimporttsv

使用bulkload加载数据到hbase表中

/user/xinniu/hfile：hfile路径

xinniu:dataload2：hbase表名

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /user/xxxx/hfile xxxx:data

查询hbase表xinniu:dataload2

`scan 'xinniu:dataload2'`

导出hbase数据

使用hive外表的方式导出hbase数据

使用hive外表的方式先关联到hbase 表，然后将hive外表数据导出到指定目录.

insert overwrite local directory'/tmp/xxxx/source_table4hbase'

row format delimited fields terminated by ','

select * from xxxx.source_table4hbase;

hb ase数据导出为orc文件

如果需要导出为orc文件，则需要创建一张临时的orc表，再将hbase外表的数据查询插入

到orc表中，再将orc表数据执行导出，导出orc文件到指定路径。

-- 创建orc表

create table orctable stored as orc

select * from xxxx.source_table4hbase

where 1=0;

-- 通过hbase的hive外表将数据导入到orc表中

insert into table orctable

select * from xxxx.source_table4hbase;

Hbase协处理器

起源

Hbase 作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执

行求和、计数、排序等操作。比如，在旧版本的(<0.92)Hbase 中，统计数据表的总行

数，需要使用 Counter 方法，执行一次 MapReduce Job 才能得到。虽然 HBase 在数据

存储层中集成了 MapReduce，能够有效用于数据表的分布式计算。然而在很多情况下，

做一些简单的相加或者聚合计算的时候，如果直接将计算过程放置在 server 端，能够减

剩余16页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

毕设小程序软件程序猿

粉丝: 151
资源: 655

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

聊聊Hbase存储优化那些事（下）.pdf

聊聊稳定性保障那些事.pdf

基于Hbase的列式存储压缩策略的优化

05-Hbase安装部署及优化.pdf

高速铁路道岔异构数据在Hbase上的云存储方案.pdf

大数据环境下基于Hbase的分布式查询优化研究.pdf

hbase的hbase-1.2.0-cdh5.14.2.tar.gz资源包

hbase1.x 跟2.x比较.docx

HBase（hbase-2.4.9-bin.tar.gz）

云上HBase冷热分离实践.pdf.pdf

Hbase性能优化百科全书（csdn）————程序.pdf

聊聊Hbase存储优化那些事（上）.pdf

美妆行业消费升级专题研究：护肤需要仪式感，聊聊面膜那些事.pdf

8.深度解密八：网站SEO优化关于站外优化的那些关键点详解.pdf

hbase-hbck2-1.0.0.jar

hbase-1.2.0-cdh5.12.0.tar.gz

hbase-1.2.1-bin.tar.gz.zip

hbase-2.2.6-bin.tar.gz

Hbase资源整理集合

04 借着更新语句在InnoDB存储引擎中的执行流程，聊聊binlog是什么.pdf

聊聊底层优化_MegEngine Meetup No.7.pdf

29 理解数据在磁盘上的物理存储之后，聊聊行溢出是什么东西.pdf

Android短视频的那些关键技术实现和优化.pdf

从0到1聊聊，《互联网安全建设从0到1》的那些事儿.pdf

hbase-1.2.4-bin.tar.gz

HBASE技术架构及应用介绍.pdf

hbase的优点共6页.pdf.zip

hbase-1.3.6-bin.tar.gz

hbase是什么共24页.pdf.zip

最新资源