没有合适的资源?快使用搜索试试~ 我知道了~
基于Hadoop的数据仓库Hive学习指南.doc
需积分: 9 2 下载量 89 浏览量
2020-05-12
12:52:33
上传
评论
收藏 1.64MB DOC 举报
温馨提示
试读
27页
基于Hadoop的数据仓库Hive学习指南,通过实验掌握基本的Hive安装方法; 2.掌握用数据仓库Hive来解决一些常见的数据库操作以及简单的Hive编程。
资源推荐
资源详情
资源评论
实验指导书
1.1 基于 Hadoop 的数据仓库 Hive 学习指南
1.2 实验环境
1.操作系统:CentOS6.6
2.已经安装好 Linux 操作系统,并安装配置了 Hadoop 环境,已经
安装好了 Hadoop 分布式文件系统
3.登录用户名:hadoop,密码:123456
账户:root 密码:123456
桌面的 hive-site.txt 存放配置文件的内容
hive-command.txt 存放常用的 hive 命令
1.3 实验原理
1.通过实验掌握基本的 Hive 安装方法;
2.掌握用数据仓库 Hive 来解决一些常见的数据库操作以及简单的
Hive 编程。
1.3.1 Hive 简介
Hive 是 Facebook 开发的构建于 Hadoop 集群之上的数据仓库应
用,可以将结构化的数据文件映射为一张数据库表,并提供完整的
SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运
行。
&
Hive 是一个可以提供有效的、合理的且直观的组织和使用数据的模
型,即使对于经验丰富的 Java 开发工程师来说,将这些常见的数据
运算对应到底层的 MapReduce&Java API 也是令人敬畏的。Hive
可以帮用户做这些工作,用户就可以集中精力关注查询本身了 。
Hive 可以将大多数的查询转换 MapReduce 任务。Hive 最适合于
数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不
需要快速响应给出结果,而且数据本身也不会频繁变化。
&
Hive 不是一个完整的数据库。Hadoop 以及 HDFS 的设计本身约束
和局限性限制了 Hive 所能胜任的工作。最大的限制就是 Hive 不支
持记录级别的更新、插入或者删除。用户可以通过查询生成新表或
将查询结果导入到文件中去。因为,Hadoop 是一个面向批处理的
系统,而 MapReduce 启动任务启动过程需要消耗很长时间,所以
Hive 延时也比较长。Hive 还不支持事务。因此,Hive 不支持联机
事务处理(OLTP),更接近于一个联机分析技术(OLAP)工具,
但是,目前还没有满足“联机”部分。
&
Hive 提 供 了 一 系 列 的 工 具 , 可 以 用 来 进 行 数 据 提 取 转 化 加 载
(ETL),其中,ETL 是一种可以存储、查询和分析存储在 Hadoop
中的大规模数据的机制。因此,Hive 是最适合数据仓库应用程序的,
它可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和
报告等。
&
因为大多数的数据仓库应用程序是基于 SQL 的关系数据库现实的,
所以,Hive 降低了将这些应用程序移植到 Hadoop 上的障碍。如
果用户懂得 SQL,那么学习使用 Hive 会很容易。因为 Hive 定义了
简单的类 SQL 查 询语言—— HiveQL ,这里值得一提的 是, 与
SQLServer、Oracle 相比,HiveQL 和 MySQL 提供的 SQL 语言
更接近。同样的,相对于其他的 Hadoop 语言和工具来说,Hive
也使得开发者将基于 SQL 的应用程序移植到 Hadoop 变得更加容易。
1.3.2 Hive 安装
因为 Hive 是构建在 Hadoop 之上的,所以在安装 Hive 前,我们需
要安装 Hadoop 环境,这里已经安装好了 Hadoop 环境。下面开始
安装 Hive。
安装 Hive 的过程和安装 Hadoop 很类似,首先,我们先下载一个
Hive 软件压缩包,下载的版本可能会有所不同,但并不会影响实验
结果。
(下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/
hive/)
1.下载并解压 hive 源程序,点击 apache-hive-1.2.2-bin.tar.gz 下
载
sudo tar -zxvf ~/Downloads/apache-hive-1.2.2-bin.tar.gz -C /usr/local # 解压
到/usr/local 中
cd /usr/local/
sudo mv apache-hive-1.2.2-bin hive # 将文件夹名改为 hive
sudo chown -R hadoop:hadoop hive # 修改文件权限
2.配置环境变量
为了方便使用,我们把 hive 命令加入到环境变量中去,编辑
~/.bashrc 文件 vim ~/.bashrc,在最前面一行添加:
保存退出后,运行 source ~/.bashrc 使配置立即生效。
3.修改/usr/local/hive/conf 下的 hive-site.xml
将 hive-default.xml.template 重命名为 hive-default.xml;
剩余26页未读,继续阅读
资源评论
陈怂怂
- 粉丝: 82
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功