没有合适的资源?快使用搜索试试~ 我知道了~
大数据技术之HBase.docx详细文档
资源详情
资源评论
资源推荐
—————————————————————————————
大数据技术之 HBase
版本:V3.1
第 1 章 HBase 简介
1.1 HBase 定义
HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。
1.2 HBase 数据模型
逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。
但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map。
1.2.1 HBase 逻辑结构
1.2.2 HBase 物理存储结构
—————————————————————————————
1.2.3 数据模型
1)Name Space
命名空间,类似于关系型数据库的 DataBase 概念,每个命名空间下有多个表。HBase
有两个自带的命名空间,分别是“hbase”和“default”,“hbase”中存放的是 HBase 内置的表,
“default”表是用户默认使用的命名空间。
2)Region
类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不
需要声明具体的列。这意味着,往 HBase 写入数据时,字段可以动态、按需指定。因此,
和关系型数据库相比,HBase 能够轻松应对字段变更的场景。
3)Row
HBase 表中的每行数据都由一个 RowKey 和多个 Column(列)组成,数据是按照
RowKey 的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey
的设计十分重要。
4)Column
HBase 中的每个列都由 Column Family(列族)和 Column Qualifier(列限定符)进行限定,
例如 info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。
5)Time Stamp
用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会
自动为其加上该字段,其值为写入 HBase 的时间。
—————————————————————————————
6)Cell
由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。
cell 中的数据是没有类型的,全部是字节码形式存储。
1.3 HBase 基本架构
架构角色:
1)Region Server
Region Server 为 Region 的管理者,其实现类为 HRegionServer,主要作用如下:
对于数据的操作:get, put, delete;
对于 Region 的操作:splitRegion、compactRegion。
2)Master
Master 是所有 Region Server 的管理者,其实现类为 HMaster,主要作用如下:
对于表的操作:create, delete, alter
对于 RegionServer 的操作:分配 regions 到每个 RegionServer,监控每个 RegionServer
的状态,负载均衡和故障转移。
3)Zookeeper
HBase 通过 Zookeeper 来做 Master 的高可用、RegionServer 的监控、元数据的入口以及
集群配置的维护等工作。
4)HDFS
—————————————————————————————
HDFS 为 HBase 提供最终的底层数据存储服务,同时为 HBase 提供高可用的支持。
第 2 章 HBase 快速入门
2.1 HBase 安装部署
2.1.1 Zookeeper 正常部署
首先保证 Zookeeper 集群的正常部署并启动
[lxx@hadoop102 zookeeper-3.5.7]$ bin/zkServer.sh start
[lxx@hadoop103 zookeeper-3.5.7]$ bin/zkServer.sh start
[lxx@hadoop104 zookeeper-3.5.7]$ bin/zkServer.sh start
2.1.2 Hadoop 正常部署
Hadoop 集群的正常部署并启动
[lxx@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
[lxx@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
2.1.3 HBase 的解压
1)解压 HBase 到指定目录:
[lxx@hadoop102 software]$ tar -zxvf hbase-2.0.5-bin.tar.gz -C /opt/module
[lxx@hadoop102 software]$ mv /opt/module/hbase-2.0.5 /opt/module/hbase
2)配置环境变量
[lxx@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh
#HBASE_HOME
export HBASE_HOME=/opt/module/hbase
export PATH=$PATH:$HBASE_HOME/bin
2.1.4 HBase 的配置文件
修改 HBase 对应的配置文件。
1)hbase-env.sh 修改内容:
export HBASE_MANAGES_ZK=false
2)hbase-site.xml 修改内容:
<property>
<name>hbase.rootdir</name>
<value>hdfs://hadoop102:8020/HBase</value>
</property>
—————————————————————————————
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>hadoop102,hadoop103,hadoop104</value>
</property>
3)regionservers:
hadoop102
hadoop103
hadoop104
2.1.5 HBase 发送至其他机器
[lxx@hadoop102 module]$ xsync hbase/
2.1.6 HBase 服务的启动
1.启动方式
[lxx@hadoop102 hbase]$ bin/hbase-daemon.sh start master
[lxx@hadoop102 hbase]$ bin/hbase-daemon.sh start regionserver
提 示 : 如 果 集群 之 间 的 节 点 时 间 不 同 步 , 会 导 致 regionserver 无 法 启 动 , 抛 出
ClockOutOfSyncException 异常。
修复提示:
a、同步时间服务
请参看帮助文档:《尚硅谷大数据技术之 Hadoop 入门》
b、属性:hbase.master.maxclockskew 设置更大的值
<property>
<name>hbase.master.maxclockskew</name>
<value>180000</value>
<description>Time difference of regionserver from master</description>
</property>
2.启动方式 2
[lxx@hadoop102 hbase]$ bin/start-hbase.sh
对应的停止服务:
[lxx@hadoop102 hbase]$ bin/stop-hbase.sh
2.1.7 查看 HBase 页面
启动成功后,可以通过“host:port”的方式来访问 HBase 管理页面,例如:
剩余33页未读,继续阅读
一个写湿的程序猿
- 粉丝: 1w+
- 资源: 14
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0