KLOOK 客路旅行基于 Apache Hudi 的数据湖实践
1. 业务背景介绍
客路旅行(KLOOK)是一家专注于境外目的地旅游资源整合的在线旅行平台,提供景点
门票、一日游、特色体验、当地交通与美食预订服务。覆盖全球 100 个国家及地区,支持 12
种语言和 41 种货币的支付系统,与超过 10000 家商户合作伙伴紧密合作,为全球旅行者提供
10 万多种旅行体验预订服务。
KLOOK 数仓 RDS 数据同步是一个很典型的互联网电商公司数仓接入层的需求。对于公
司数仓,约 60%以上的数据直接来源与业务数据库,数据库有很大一部分为托管的 AWS
RDS-MYSQL 数据库,有超 100+数据库/实例。RDS 直接通过来的数据通过标准化清洗即
作为数仓的 ODS 层,公司之前使用第三方商业工具进行同步,限制为每隔 8 小时的数据同
步,无法满足公司业务对数据时效性的要求,数据团队在进行调研及一系列 poc 验证后,最
后我们选择 Debezium+Kafka+Flink+Hudi 的 ods 层 pipeline 方案,数据秒级入湖,后续数仓
可基于近实时的 ODS 层做更多的业务场景需求。
2. 架构改进
2.1 改造前架构
整体依赖于第三服务,通过 Google alooma 进行 RDS 全量增量数据同步,每隔 8 小时进
行 raw table 的 consolidation,后续使用 data flow 每 24 小时进行刷入数仓 ODS 层
2.2 新架构