增长中心数仓
建设方案
问题
缺乏规范统一的数仓规划与设计开发规范
烟囱式开发 数据孤岛 数据模型混乱难以复用
数据重复计算、数据膨胀 计算资源紧张、出数时间得不到保障 任务和数据异常难以排查
数据质量监控
业务需求开发周期长 业务需求响应缓慢
设计开发大宽表、提供自助取数功能 构建强大公共数据模型
规范数据模型设计与开发
跨部门合作困难
形成设计开发规范
统一规划数仓
指标口径没有统一定义 指标口径不一致 数据可信度下降
指标数据难以复用 数据重复计算、数据膨胀 计算资源紧张、出数时间得不到保障 任务和数据异常难以排查
提供数据字典
跨部门合作困难
指标规范定义与元数据管理
产出形式单一 数仓价值难以体现 数仓成为成本中心
设计开发数据产品,提供多样化数据服务
数据安全和数据共享矛盾不可调和
数据分级与权限管理
平台与工具未使用公司大数据套件
跨部门数据交互困难
工具方面支撑不足
工具便易用性不足 开发效率变低
出问题难以快速解决
平台支撑不足 出问题难以快速解决
使用公司大数据套件
方案
数仓规划
技术选型
存储于计算平台
设计工具
开发工具
调度工具
数据接入工具
需求管理工具
元数据管理工具
报表工具
自助取数工具
模型架构
分层
ODS 操作数据存储层
CDM 公共维度模型层
APP 应用数据存储层
分域
平台架构
数据模型
需求规范
设计规范
维度建模
建模四步走
维度表设计
快照表
拉链表
维度属性扁平化
事实表设计
事务事实表
快照事实表
累积事实表
常用维度与维度属性退化
规范定义
总线矩阵
公共定义
数据术语
数据周期
维度定义
业务过程定义
原子指标定义
业务限定定义
派生指标定义
复合指标定义
自定义指标定义
命名规范
设计review
开发规范
数据接入
接入方式
实时
增量
全量
增量+全量
接入周期
实时
分钟
小时
日
月
接入方法
直连库
jdbc
sqoop
datax
dblink
ogg
kafka
+spark stream
+flink
+storm
文件
主动抓取
被动传送
模型开发
开发流程
分析需求
分析口径
理解模型
脚本开发
脚本调试
数据验证
开发规范
脚本规范
命名规范
编码规范
换行符
Tab键
SQL编写规范
格式
索引
数据倾斜
任务调度规范
任务名规范
血缘配置与维护
开发review
数据治理
建设元数据管理中心
技术元数据
表注释及数据字典
数据存储及生命周期
任务执行日志
血缘关系
表与表
任务与任务
业务元数据
维度模型总线矩阵
指标数据字典
数据目录管理
做好数据质量管理
数据监控
完整性
检查接入表的数据量波动
检查模型表的数据量波动
检查字段为空数量
一致性
字段类型与来源保持一致
指标二义性检查
字段引用检查
主外键引用检查
维度属性退化检查
维度属性平展检查
准确性
检查指标值波动
检查字段枚举值
检查主键唯一性
及时性
基于基线监控任务是否及时生成数据
优化瓶颈任务
任务监控
任务超时告警
任务出错告警
异常处理规范
数据安全
开发环境与生成环境分离
数据清理与删除规则
共享数据权限控制
避免人为操作失误导致数据不可恢复
数据产品化和服务化
数仓模型培训推广
大宽表设计与自助取数
主题分析产品
用户留存分析
用户活跃度分析
等
计划
实施过程
平台搭建与工具部署调试
需求调研
业务指标
来源业务过程
统计粒度
统计周期
可视化形式
维度
业务过程
数据接入
确定来源
业务库
地址
库类型
业务表
规范数据接入
接入方式
实时
增量
全量
增量+全量
接入周期
实时
分钟
小时
日
月
接入方法
直连库
jdbc
sqoop
datax
dblink
ogg
kafka
+spark stream
+flink
+storm
文件
主动抓取
被动传送
配置接入任务
接入数据稽核
规范设计
规范定义
公用维度模型设计
应用模型设计
设计review
输出设计文档
开发测试
脚本开发
数据基础测试
数据业务测试
报表配置
脚本review
调度上线
任务运维
一阶段里程碑
完成建设方案
完成核心指标收集与分析
完成核心指标技术口径调研分析
完成数仓核心模型设计
平台搭建与工具部署联调
完成核心来源数据接入
完成数仓核心模型开发、测试与调度上线
完成核心指标开发测试、报表配置与调度上线
二阶段里程碑
常用报表指标需求收集与分析
常用报表来源数据接入
数仓模型迭代模型设计与开发
常用报表指标开发测试、可视化及调度上线
承接新需求
评论0