京东零售数据产品技术架构演进
本文总结了京东零售数据产品技术架构的演进过程,并介绍了数据产品架构师洪帅在DataFunSummit 2021上的讲话要点。该讲话主要涵盖了数据产品的发展历程、问题和挑战,以及京东零售数据产品技术架构的演进和解决方案。
一、数据产品的发展历程
京东零售数据产品经历了从初期的数据门户到微服务架构的演进过程。在初期,数据产品存在多个数据门户,导致成本效率低下、数据模型不复用、重复计算和存储、业务困扰等问题。
二、问题和挑战
数据产品发展过程中遇到的问题和挑战包括:
* 成本效率烟囱式的开发模式,导致需求响应速度慢
* 重复计算和存储,浪费计算和存储资源
* 一半的数据模型在30天内没有访问,占用集市和在线存储资源
* 业务困扰,每周需要跟业务解释不同产品之间的口径差异
* 模型不复用,需要重新开发,没有沉淀通用技术架构和组件
* 重复造轮子,不同产品解决相同场景的问题
三、解决方案
京东零售数据产品技术架构的解决方案包括:
* 全链路数据质量跟踪体系
* 数据模型规范,统一指标管理体系,消灭二义性
* 基于全链路血缘关系,评估每个任务影响了下游哪些模型、API、报表等
* 广义上的团队、组织服务能力,狭义上的产品服务能力
* 解耦复杂的业务逻辑,抽象通用技术框架,实现数据服务配置化,提升开发效率
* OneService,提升易用性
* 解决数据治理 “部门墙”问题,输出统一治理方案并执行落地
* 数据运营,降低业务侧对数据的理解成本及平台理解成本
四、微服务实践
微服务实践是京东零售数据产品技术架构的一部分。微服务架构中,服务视图层将多个主题域的原子服务进行关联,对外提供统一的服务协议。服务视图的工作流程包括请求解析、请求拆分、服务寻址、服务调用和结果合并。服务视图的提效成果是相同复杂度的数据报表,接入多个域的指标,服务视图的开发效率提升2倍。
五、数据架构实践
数据架构实践是京东零售数据产品技术架构的另一个方面。数据架构实践中,数据产品背后数据的生产过程,涉及实时、离线及Delta Lake的准实时方案。数据架构实践的目的是提高数据产品的质量和效率。