Hive对Protobuf序列化文件读取.zip_hiveprotobuf资源-CSDN文库

共14个文件

java：10个

md：2个

proto：1个

需积分: 5 114 浏览量 2023-10-26 20:50:39 上传评论收藏 20KB ZIP 举报

在大数据处理领域，Apache Hive 是一个非常重要的工具，它提供了一个SQL-like的接口来查询、管理和分析存储在分布式存储系统（如Hadoop）中的大规模数据集。本篇将重点讲解如何利用Hive对Protobuf序列化的文件进行读取，以及相关的技术细节。了解Protobuf（Protocol Buffers）。这是Google开发的一种数据序列化协议，用于结构化数据的序列化，可以看作是XML、JSON的轻量级替代品。Protobuf通过定义数据结构（.proto文件），生成对应语言的代码，使得数据能够高效地在网络间传输和存储。在大数据场景下，Protobuf的紧凑格式和高效的解析速度使得其成为理想的序列化选择。 Hive原生支持的序列化/反序列化方式（SerDe）主要是Text SerDe和Writable SerDe，但它们并不直接处理Protobuf格式的数据。为了在Hive中读取Protobuf序列化的文件，我们需要使用自定义的Protobuf SerDe，如本压缩包中的`hive-protobuf-serde-master`项目所示，这是一个专门为Hive设计的 Protobuf SerDe 实现。使用Hive与Protobuf集成的步骤如下： 1. **安装Protobuf SerDe**：你需要编译并安装`hive-protobuf-serde-master`项目，这通常包括克隆项目源码、编译、生成JAR包，然后将此JAR包添加到Hive的类路径中。具体操作可能因环境而异，通常涉及修改Hive的`HADOOP_CLASSPATH`或使用Hive的`ADD JAR`命令。 2. **创建表结构**：定义一个Hive表，指定使用 Protobuf SerDe，并指定protobuf的schema。Hive表的创建语句通常会包含以下内容： ```sql CREATE TABLE my_table ( column1_type column1_name, column2_type column2_name, ... ) ROW FORMAT SERDE 'com.example.HiveProtobufSerDe' WITH SERDEPROPERTIES ( 'protobuf.schema' = 'file:///path/to/your/proto/schema.proto', 'protobuf.output.format' = 'BINARY' ) STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.protobuf.ProtobufInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.protobuf.ProtobufOutputFormat'; ``` 其中，`protobuf.schema`属性指定了.proto文件的位置，`protobuf.output.format`通常设置为'BINARY'，表示二进制编码的protobuf格式。 3. **加载数据**：一旦表创建完成，你可以使用`LOAD DATA`命令将Protobuf序列化的文件加载到Hive表中，或者使用`INSERT INTO`语句将数据逐条插入。 4. **查询数据**：现在你可以像对待任何其他Hive表一样，使用SQL查询语句来查询和分析数据了。 5. **性能优化**：虽然Protobuf SerDe提供了对Protobuf数据的支持，但在大数据场景下，性能优化依然重要。例如，考虑分区表、压缩、以及使用合适的执行引擎（如Tez或Spark）来提升查询效率。 6. **版本兼容性**：当protobuf的schema发生变化时，需确保SerDe和解析逻辑能正确处理新旧版本的protobuf消息。 Hive与Protobuf的结合使得大数据处理能够充分利用Protobuf的高效性和灵活性。然而，由于涉及到自定义SerDe，这也会增加系统的复杂性，因此在实际应用中需要权衡易用性和性能需求。通过理解这些知识点，你可以更好地在Hadoop生态系统中管理Protobuf序列化的数据。

资源推荐

资源详情

资源评论

收起资源包目录

Hive 对 Protobuf 序列化文件读取.zip （14个子文件）

hive-protobuf-serde-master

pom.xml 16KB

src

test

resources

Entities.proto 3KB

java

com

ivyft

hive

serde2

HeaderRecordReader1Test.java 3KB

TestApp.java 255B

ProtobufSerdeTest.java 5KB

main

java

com

ivyft

hive

hadoop

IntLengthHeaderMr1InputFormat.java 1KB

IntLengthHeaderMr1RecordReader.java 3KB

IntLengthHeaderRecordReader.java 2KB

IntLengthHeaderInputFormat.java 1KB

serde2

protobuf

IntLengthHeaderFile.java 4KB

ProtobufSerde.java 9KB

App.java 260B

data

data.md 9B

README.md 2KB

Apache Hive Protobuf SerDe --- ##项目说明: 该项目用于 Hive 解析读取 Protobuf 序列化文件的一个组件. ##开发背景: 因为项目的不确定性, 加字段是常见的. 因此需要对于加了字段不需要改 Schama, 或者改 Schama 还能不影响老数据是紧迫需求. 这种对于 Schama 和数据都不影响的方式存储数据, 可以用 JSON, AVRO,Protobuf 等. JSON 存储序列化和反序列化开销大, 并存储也比较大. Avro 目前并不流行, 当然 Hive 默认是对 Avro 支持的. 而我们的 Bean 都是 Protobuf 定义的, 因此开发 Hive-protobuf-serde 来支持 Hive 对 Protobuf 数据建表, 并查询. ###优势: 序列化反序列化速度快, 序列化字节小, 增减字段对老数据兼容性好. ##Hive 建表: CREATE TABLE locations2 ( location STRING, locCountry BIGINT, locProvince BIGINT, locCity BIGINT, cityLevel INT) ROW FORMAT SERDE 'com.ivyft.hive.serde2.protobuf.ProtobufSerde' STORED AS INPUTFORMAT 'com.ivyft.hive.hadoop.IntLengthHeaderMr1InputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' TBLPROPERTIES ('hive.protobuf.class' = 'com.ivyft.hive.serde2.entity.Entities$Location') SERDEPROPERTIES('hive.protobuf.class' = 'com.ivyft.hive.serde2.entity.Entities$Location') ; ##Protobuf 数据序列化该项目内部有一个IntLengthHeaderFile类, 内部的 Reader 和 Writer 可以读写 Protobuf 类. 写时的规则为: byte[] bytes = protobufObject.toByteArray(); outputstream.writeInt(bytes.length); outputstream.write(bytes); 读时: int length = inputstream.readInt(); byte[] bytes = new byte[length]; inputstream.read(bytes, 0, length); protobufObject = ProtobufClass.parseFrom(bytes); 用IntLengthHeaderFile类完全可以做到如上. 并能利用 Hive-Protobuf-Serde 解析.

评论收藏

内容反馈