大数据与云计算培训学习资料Hadoop集群细细品味Hadoop_第14期_Hive应用开发_V1.0共29页.pdf

版权申诉

6 浏览量 2022-03-20 22:34:01 上传评论收藏 1023KB PDF 举报

【大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第14期_Hive应用开发_V1.0 共29页.pdf】这份资料主要涵盖了Hadoop集群中的Hive应用开发，包括Hive的基本服务、Hive Shell的使用、JDBC/ODBC支持等内容。以下是详细的解释： Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL-like语言（HiveQL）来查询、管理和处理存储在Hadoop文件系统（HDFS）中的大规模数据集。在Hadoop集群中，Hive扮演着数据仓库和分析的角色，提供了高效的数据处理能力。 1. **Hive服务** - **Hive Shell**：Hive的核心服务是Hive Shell，一个交互式的命令行界面，用户可以通过它执行HiveQL语句，进行数据查询、管理操作。HiveQL语句以分号结尾，且支持执行Hive的管理命令，如导入jar包、设置环境变量等。 - **Hive的服务扩展**：Hive还可以提供Thrift服务器、Web接口以及元数据和JDBC/ODBC服务，增强了其作为数据仓库的灵活性和可访问性。 2. **Hive Shell操作** - **Hive语句执行**：在Shell中执行查询语句，如`select name from xp;`，会启动MapReduce任务进行处理。Hive会将数据存储在HDFS的特定目录下，如`/user/hive/warehouse`，每个表对应一个以表名命名的子目录。 - **HDFS文件操作**：在Hive Shell中可以直接使用`dfs`命令操作HDFS上的文件。 - **设置和查看临时变量**：Hive Shell允许用户设置临时变量，这些变量只在当前会话内有效，方便在不同环境中切换。 - **导入jar包**：`add jar`命令可以将jar包添加到Hive的类路径中，以便在Hive中使用自定义函数。 - **创建函数**：`create temporary function`用于注册自定义函数，例如`udfTest`，指定函数所在的类。 3. **JDBC/ODBC支持** - **JDBC**：Hive提供了对Java数据库连接（JDBC）的支持，使得能够通过标准JDBC接口访问Hive。Hive JDBC驱动类是`org.apache.hadoop.hive.jdbc.HiveDriver`，客户端通过这个驱动与运行在特定端口的Hiveserver服务建立连接，进行数据操作。 - **ODBC**：对于非Java应用程序，Hive也提供了开放数据库连接（ODBC）支持，允许使用ODBC兼容的应用程序与Hive交互。 4. **Hive的其他特性** - **Hive查询日志**：查询日志默认存储在本地文件系统的`/tmp/<user.name>`目录下，而MapReduce执行计划保存在`/tmp/<user.name>/hive`。 - **配置属性**：如`hive.metastore.metadb.dir`定义元数据目录，`hive.querylog.location`设定查询日志位置，`hive.exec.scratcher`则是HDFS上的临时文件目录。 5. **Hive服务启动与连接** - 可以通过命令行参数`-e`执行HiveQL语句，`-config`指定新配置文件，`-service hiveserver`启动Hiveserver服务。这份资料适合想要深入理解Hadoop集群中Hive应用开发的学习者，通过它，可以了解到Hive如何作为数据仓库工具在大数据场景下工作，并且如何与各种应用进行集成，实现高效的数据分析和处理。

资源推荐

资源评论