基于Binlog实时同步数据仓库问题总结.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
基于 Binlog 实时同步数据仓库问题总结 本文档总结了基于 Binlog 实时同步数据仓库的三个重要准绳,并提供了相应的解决方案。 准绳一:与业务数据解耦 在数据采集中,需要确定一个固定的时间序列作为时间分区的基础。然而,在实际工作中,业务数据上的时间戳字段可能不统一,无法满足要求。解决方案是使用 Debezium 提供的 New Record State Extraction 配置选项,抽取 binlog 中的元数据,作为固定时间戳。 准绳二:与数据结构解耦 在业务数据库中,表结构变更是非常常见的问题。解决方案是使用 Json 格式进行数据存储,可以保证业务数据的任何变更都可以在 Hive 中读取出来。 准绳三:数据是可回溯的 数据采集和消费落地都需要具备可回溯性。解决方案是使用 Debezium 重新按位置采集 binlog,并在消费 binlog 落地的一端,可以反复消费把数据重新落地。 技术架构 基于准绳一的处理方案使用 Debezium + Confluent + Kafka + OSS/S3 + Hive 技术架构。Debezium 提供了 New Record State Extraction 配置选项,可以抽取出 binlog 中的元数据。Confluent 和 Kafka 用于数据处理和传输,OSS/S3 用于数据存储,Hive 用于数据分析。 实现方案与具体操作 1. 使用 Debezium 抽取 binlog 中的元数据,作为固定时间戳。 2. 使用 Json 格式进行数据存储,保证业务数据的任何变更都可以在 Hive 中读取出来。 3. 使用 Debezium 重新按位置采集 binlog,并在消费 binlog 落地的一端,可以反复消费把数据重新落地。 结论 本文档总结了基于 Binlog 实时同步数据仓库的三个重要准绳,并提供了相应的解决方案。遵守这些准绳,可以保证数据采集的可靠性和一致性,并提高数据仓库的效率和可扩展性。
剩余10页未读,继续阅读
- 粉丝: 0
- 资源: 7万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 2023-04-06-项目笔记 - 第三百零八阶段 - 4.4.2.306全局变量的作用域-306 -2025.11.05
- Carla 0.9.15编译的zlib-1.2.13.zip
- Carla 0.9.15编译的xerces-c-3.23-src
- 【完整源码+数据库】基于Spring SchedulingConfigurer 实现动态定时任务
- Java Web应用集成支付宝支付功能【附完整源码及数据库设计】
- mysql驱动文件mysql
- python网络编程入门基础
- 基于SpringBoot 整合 AOP完整源码示例
- python基础,python进程和线程
- Java Web 实验项目 初步实现maven和idea的整合