没有合适的资源?快使用搜索试试~ 我知道了~
数仓建设规划核心问题.docx
2 下载量 158 浏览量
2023-05-05
03:02:52
上传
评论
收藏 1.26MB DOCX 举报
温馨提示
试读
16页
数仓建设规划核心问题.docx
资源推荐
资源详情
资源评论
数仓建设规划核心问题
小 A 进入一家网约车出现服务公司,负责公司数仓建设,试用期主要一项
OKR 是制定数据仓库建设规划;因此小 A 本着从问题出发为原点,先对
公司数仓现状进行一轮深入了解,理清存在问题,然后在以不忘初心原则
提出解决问题方案。相信很多数据建设者在公司发展某个阶段时都会遇到
类似小 A 公司问题,也在思考或已经在执行落地解决这些问题方案,希望
通过小 A 案例可以给大家一些启发。下面先看看小 A 公司数仓现状与问
题
01 数据仓库现状
小 A 公司创建时间比较短,才刚过完两周岁生日没多久;业
务增长速度快,数据迅速增加,同时取数需求激增与数据应用
场景对数据质量、响应速度、数据时效性与稳定要求越来越高;
但技术能力滞后业务增长,如实时数仓技术能力、高可用稳定
保障能力、流程规范缺少等,这些能力严重滞后业务发展,甚
至有些还是停留在公司创建初期 case by case 阶段。小 A
根据数据在数仓流向(以下图),从上游的业务系统测到数仓
内部最后到下游数据应用梳理数据仓库建设存在问题。
业务系统侧【上游】
数据仓库首先需要对业务系统结构化业务数据、日志数据与埋点数据进行
归集;数仓与上游业务系统对接主要存在以下问题:
�
缺失业务系统数据模型清单与变更同步:没有对已归集到数仓业务系统数
据模型记录,业务系统数据模型发送变更也没有对数仓知会,更多是出现
问题后或者是数据使用者事后告知数仓。
�
�
缺少统一枚举值编码与变更同步:业务系统没有统一枚举值编码,如订单
状态有:下单、接单、成单,没有统一对这些枚举值进行管理;如果后面
对订单状态再增加一个:取消单状态,这种变更也没有对数仓进行知会。
�
�
业务部门搭建各自小数仓:有些部门绕过数仓直接接入上游数据源,搭建
各自的小数仓,从而导致数据孤岛、重复计算、口径不一致。
�
�
存在业务盲区:有些业务需要专业知识背景如:财务;有些业务规则保密
级别高,无法对非业务相关员公开业务逻辑,如风控;因此无法系统梳理
这些业务实体与实体之间关系,提炼指标,共享数据。
�
数仓内部
公司创建初期,数据量比较小、数据需求也不多、数据应用场景也比较单
一更多是为了满足一下简单报表,因此数仓主要是以接单方式驱动工作,
来一个需求做一个,case by case,主要是为了快速响应需求。但随着业
务迅速增加,数据量暴涨,数据应用场景多样化,慢慢暴露出以下问题:
�
剩余15页未读,继续阅读
资源评论
jane9872
- 粉丝: 95
- 资源: 7751
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功