Hive学习总结及应用.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
Hive学习总结及应用.pdf 本文档主要介绍了Hive的基本概念、应用场景、元数据存储方式、数据导入和导出方式等。下面是对文档中提到的知识点的详细解释: 一、Hive概述 Hive是一个构建在HDFS和Map/Reduce之上的可扩展的数据仓库。它提供了类似SQL的查询语言HQL(Hive Query Language),使用户可以轻松地对大规模数据进行查询和分析。 二、Hive中的表 Hive中的表可以分为托管表和外部表。托管表的数据移动到数据仓库目录下,由Hive管理;外部表的数据在指定位置,不在Hive的数据仓库中,只是在Hive元数据库中注册。创建外部表可以使用“create external”语句,并指定表的位置。 三、Hive的元数据 Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表的数据所在目录等。由于Hive的元数据需要不断地更新、修改,而HDFS系统中的文件是多读少改的,这显然不能将Hive的元数据存储在HDFS中。目前Hive将元数据存储在数据库中,如Mysql、Derby中。 四、Hive元数据存储方式 Hive的元数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。 1. 使用Derby数据库存储元数据(内嵌的以本地磁盘作为存储),这称为“内嵌配置”。 2. 使用本机Mysql服务器存储元数据,这称为“本地metastore”。 3. 使用远端Mysql服务器存储元数据。这称为“远程metastore”。 五、Hive数据导入方式 Hive提供了多种数据导入方式,包括从本地文件系统中导入数据、从HDFS上导入数据、从别的表中查询出相应的数据并导入到Hive表中等。 六、Hive数据导出方式 Hive也提供了多种数据导出方式,包括导出到本地文件系统、导出到HDFS中、导出到Hive的另一个表中等。 七、HiveQL的常用操作 HiveQL是一种类似SQL的语言,它与大部分的SQL语法兼容,但是并不完全支持SQL标准。HiveQL提供了多种常用操作,包括SELECT、FROM、WHERE、GROUP BY、HAVING、JOIN等。
剩余17页未读,继续阅读
- 粉丝: 1
- 资源: 8万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助