基于Binlog实时同步数据仓库问题总结.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
基于 Binlog 实时同步数据仓库问题总结 本文档总结了基于 Binlog 实时同步数据仓库的三个重要准绳,并提供了相应的解决方案。 准绳一:与业务数据解耦 在数据采集中,需要确定一个固定的时间序列作为时间分区的基础。然而,在实际工作中,业务数据上的时间戳字段可能不统一,无法满足要求。解决方案是使用 Debezium 提供的 New Record State Extraction 配置选项,抽取 binlog 中的元数据,作为固定时间戳。 准绳二:与数据结构解耦 在业务数据库中,表结构变更是非常常见的问题。解决方案是使用 Json 格式进行数据存储,可以保证业务数据的任何变更都可以在 Hive 中读取出来。 准绳三:数据是可回溯的 数据采集和消费落地都需要具备可回溯性。解决方案是使用 Debezium 重新按位置采集 binlog,并在消费 binlog 落地的一端,可以反复消费把数据重新落地。 技术架构 基于准绳一的处理方案使用 Debezium + Confluent + Kafka + OSS/S3 + Hive 技术架构。Debezium 提供了 New Record State Extraction 配置选项,可以抽取出 binlog 中的元数据。Confluent 和 Kafka 用于数据处理和传输,OSS/S3 用于数据存储,Hive 用于数据分析。 实现方案与具体操作 1. 使用 Debezium 抽取 binlog 中的元数据,作为固定时间戳。 2. 使用 Json 格式进行数据存储,保证业务数据的任何变更都可以在 Hive 中读取出来。 3. 使用 Debezium 重新按位置采集 binlog,并在消费 binlog 落地的一端,可以反复消费把数据重新落地。 结论 本文档总结了基于 Binlog 实时同步数据仓库的三个重要准绳,并提供了相应的解决方案。遵守这些准绳,可以保证数据采集的可靠性和一致性,并提高数据仓库的效率和可扩展性。
剩余10页未读,继续阅读
- 粉丝: 0
- 资源: 7万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助