Hive使用手册

需积分: 5 45 浏览量 2023-05-14 10:04:30 上传评论收藏 43KB DOCX 举报

目录 1 Hive 概念与连接使用: 2 2 Hive支持的数据类型： 2 2.1原子数据类型： 2 2.2复杂数据类型： 2 2.3 Hive类型转换： 3 3 Hive创建/删除数据库 3 3.1创建数据库: 3 3.2 删除数据库: 3 4 Hive 表相关语句 3 4.1 Hive 建表： 3 4.1.1使用LIKE关键字创建一个与已有表模式相同的新表： 4 4.2 Hive 修改表 4 4.2.1 Hive 新增一个字段： 4 4.2.2 Hive 修改字段名/字段类型/字段位置/字段注释： 4 4.2.3 Hive 重命名表名: 4 4.3Hive 删除表： 4 5 Hive 分区 4 5.1 Hive 添加分区 4 5.2 Hive 删除分区 5 6 SHOW语句 5 7 DESCRIBE语句 5 8 加载数据 5 9表连接 6 10 子查询 6 11 UNION ALL 6 12 Hive使用注意点: 6 13 Hive优化 9 在大数据处理领域，Apache Hive 是一个非常重要的工具，它提供了SQL-like的语言（HQL）用于对存储在Hadoop上的大规模数据进行查询和分析。本手册将深入探讨Hive的概念、数据类型、表的操作以及优化技巧。 1. **Hive概念与连接使用** Hive是建立在Hadoop之上的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，方便大数据的分析。连接Hive通常通过Hive Shell或使用其他支持Hive的客户端如Beeline、Hue等。要连接Hive，你需要知道Hive服务器的地址、端口以及认证方式（如果有的话）。 2. **Hive支持的数据类型** - **原子数据类型** 包括：INT、BIGINT、FLOAT、DOUBLE、STRING、BOOLEAN、BINARY、TIMESTAMP、DATE和VARCHAR等，这些是基本的数据单元。 - **复杂数据类型** 包括：ARRAY、MAP、STRUCT和UNIONTYPE，它们可以存储结构化或半结构化的数据。 - **Hive类型转换** 在创建表或处理数据时，可能需要进行类型转换，这可以通过HQL的CAST函数实现。 3. **Hive创建/删除数据库** - **创建数据库** 用CREATE DATABASE语句，例如：`CREATE DATABASE mydb;` - **删除数据库** 用DROP DATABASE语句，例如：`DROP DATABASE mydb CASCADE;` `CASCADE`选项会同时删除所有相关表。 4. **Hive表相关语句** - **建表** 包括定义列名、列数据类型和表属性。例如：`CREATE TABLE my_table (col1 INT, col2 STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';` - **修改表** 可以增加字段、更改字段属性或重命名表名。例如，新增字段：`ALTER TABLE my_table ADD COLUMNS (new_col STRING);` 修改字段：`ALTER TABLE my_table CHANGE column_name new_column_name new_data_type;` 重命名表：`ALTER TABLE my_table RENAME TO new_table_name;` - **删除表** 用DROP TABLE语句，例如：`DROP TABLE my_table;` 5. **Hive分区** 分区是提高Hive查询效率的一种手段，允许用户将大表划分为小块。添加分区：`ALTER TABLE my_table ADD PARTITION (partition_col='value');` 删除分区：`DROP PARTITION IF EXISTS my_table (partition_col='value');` 6. **SHOW和DESCRIBE语句** - `SHOW DATABASES;` 显示所有数据库。 - `SHOW TABLES;` 显示当前数据库中的表。 - `DESCRIBE table_name;` 查看表结构，包括字段名、数据类型和注释。 7. **加载数据** 数据可以使用LOAD DATA命令从本地文件系统或HDFS加载到Hive表中，例如：`LOAD DATA LOCAL INPATH '/path/to/file' INTO TABLE my_table;` 8. **表连接、子查询和UNION ALL** - 表连接允许合并来自两个或更多表的数据。 - 子查询在查询语句中嵌套另一个查询，用于筛选或聚合数据。 - UNION ALL用于合并多个SELECT结果集，不剔除重复行。 9. **Hive使用注意点** - 确保数据格式与表结构匹配。 - 优化查询，避免全表扫描和过度复杂的子查询。 - 合理使用分区，减少数据处理量。 10. **Hive优化** - 使用桶表（Bucketing）和分桶连接（Bucketed Joins）提高JOIN性能。 - 使用压缩减少存储空间。 - 考虑使用索引和Materialized Views以加速查询。 - 根据数据访问模式调整Hive的配置参数。以上是Hive的基础知识和常见操作，理解并熟练运用这些内容，能帮助你更有效地在Hadoop集群上进行大数据处理和分析。在实际工作中，不断探索和学习新的优化策略，将使Hive在大数据场景下的表现更加出色。

资源推荐

资源详情

资源评论

1 Hive 概念与连接使用: .................................................................................................................2

2 Hive 支持的数据类型： ...............................................................................................................2

2.1 原子数据类型： ................................................................................................................2

2.2 复杂数据类型： ................................................................................................................2

2.3 Hive 类型转换： ................................................................................................................3

3 Hive 创建/删除数据库..................................................................................................................3

3.1 创建数据库: .......................................................................................................................3

3.2 删除数据库: ......................................................................................................................3

4 Hive 表相关语句 .........................................................................................................................3

4.1 Hive 建表： .......................................................................................................................3

4.1.1 使用 LIKE 关键字创建一个与已有表模式相同的新表： .....................................4

4.2 Hive 修改表 .......................................................................................................................4

4.2.1 Hive 新增一个字段： ............................................................................................4

4.2.2 Hive 修改字段名/字段类型/字段位置/字段注释： ............................................4

4.2.3 Hive 重命名表名: ...................................................................................................4

4.3Hive 删除表： ....................................................................................................................4

5 Hive 分区 ......................................................................................................................................4

5.1 Hive 添加分区 ...................................................................................................................4

5.2 Hive 删除分区 ...................................................................................................................5

6 SHOW 语句....................................................................................................................................5

7 DESCRIBE 语句...............................................................................................................................5

8 加载数据 ......................................................................................................................................5

9 表连接 ...........................................................................................................................................6

10 子查询 ........................................................................................................................................6

11 UNION ALL ...................................................................................................................................6

12 Hive 使用注意点: ........................................................................................................................6

13 Hive 优化 .....................................................................................................................................9

Hive 使用手册

1 Hive 概念与连接使用:

Hive 是一个构建在 Hadoop 上的数据仓库框架，它把数据组织成表，通过这

种方式为存储在 HDFS 的数据赋予结构。Hive 的设计目的是让精通 SQL 技能（但

Java 编程技能相对较弱）的分析师能够在 HDFS 上存放的大规模数据集上运行查

询。一般情况下，Hive 在工作站上运行，它把 SQL 查询转换为一系列在 Hadoop

集群上运行的 MapReduce 作业。

2 Hive 支持的数据类型：

Hive 支持原子和复杂数据类型。原子数据类型包括数值型、布尔型和字符

串类型。复杂数据类型包括数组、映射和结构。

2.1 原子数据类型：

数值型包括 TINYINT、SMALLINT、INT、BIGINT、FLOAT 以及 DOUBLE 型（红

色标注为常用数值类型）。

Hive 的浮点类型和数据库不同，它不提供浮点数值控制有效数字或小数位

位置的选项。但它提供了一些内置函数来取整（如 round、floor、ceil 函数）

或保留几位小数（如 round(double a,int d)：小数部分 d 位之后数字四舍五入）

涉及到 Unix 时间戳的时候，此字段选取字符串 STRING 类型，Hive 提供了

把 Unix 时间戳（以整型存放）到字符串的转换函数。（详见 hive 函数参考手册：

http://www.cnblogs.com/end/archive/2012/06/18/2553682.html）譬如，

c_time 的内容是时间戳类型，我们在 Hive 中设为 STRING 类型，采用如下方式

可将它从 13 位时间戳形式（1396281562143）转换为特定字符串形式的时间

（2014-03-31 23:59:22）：

FROM_UNIXTIME(CAST(SUBSTR(c_time, 1, 10) AS BIGINT), 'yyyy-MM-dd

HH:mm:ss')

2.2 复杂数据类型：

Hive 有三种复杂数据类型：ARRAR、MAP 和 STRUCT。ARRAY 和 MAP 和 Java 中

的同名数据类型类似，而 STRUCT 是一种记录类型，它封装了一个命名的字段集

合。复杂数据类型允许任意层次的嵌套。复杂数据类型声明必须使用尖括号符号

指明其中数据字段的类型。

示例：

CREATE TABLE complex(

剩余11页未读，继续阅读

评论收藏

内容反馈

白杨Shayne

粉丝: 6402
资源: 25

Hive使用手册

Apache Hive 中文手册_hive_

Hive使用手册1

hive用户手册

hive操作手册

hive 用户手册 英文版

hive用户手册_0.11_cn.chm

Hive新手学习资料之Hive入门与实战.+Hive用户手册+hive函数大全中文版资源合集

Hive用户手册)_中文版.pdf

HiveSQL优化手册

hive编程手册，从入门到精通

Hive用户手册中文版.pdf

hive 0.11中文手册

hive安装手册.txt

Hive用户指南(Hive_user_guide)_中文版pdf

Hive用户指南(Hive_user_guide)_中文版.pdf

Hive 口袋手册

Hive常用命令

深入浅出 Hive

Hive

Hive之查询

hive基础文档

mysql-connector-java-5.1.40.tar.gz

24年最新某马MapReduce & YARN高阶原理课程PPT

Hive练习 1.在Hive中建立数据库hive，该库中建立外部表party，将hdfs的/party.csv导入该表，用命令

Apache atlas使用说明文档.pdf（转载分享请注明出处）

超市销售数据分析.csv

最新资源

hive 用户手册英文版