精品文档
.
一、文档说明
熟悉 Hive 功能,了解基本开发过程,及在项目中的基本应用。
注意:本文档中但凡有 hive 库操作的语句,其后面的“; ”是语
句后面的,非文档格式需要。每个 hive 语句都要以“;”来结束,否
则将视相邻两个分号“; ”之间的所有语句为一条语句。
二、 Hive(数据提取)概述
Hive 是构建在 HDFS 和 Map/Reduce之上的可扩展的数据仓库。 是
对 HADOOP的 Map-Reduce进行了封装,类似于 sql 语句( hive 称之
为 HQL)计算数据从而代替编写代码对 mapreduce的操作,数据的来
源还是 HDFS上面的文件。
Hive 中的表可以分为托管表和外部表,托管表的数据移动到数据
仓库目录下,由 Hive 管理,外部表的数据在指定位置,不在 Hive 的
数据仓库中,只是在 Hive 元数据库中注册。 创建外部表采用 “create
external tablename ”方式创建,并在创建表的同时指定表的位置。
Hive 本身是没有专门的数据存储格式,也没有为数据建立索引,
只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,
Hive 就可以解析数据。所以往 Hive 表里面导入数据只是简单的将数
据移动到表所在的目录中(如果数据是在 HDFS上;但如果数据是在
本地文件系统中,那么是将数据复制到表所在的目录中) 。
评论0
最新资源