![](https://csdnimg.cn/release/download_crawler_static/89309863/bg2.jpg)
数仓的基础内容
数仓的基础内容:
本次课程大纲
今天是 全域离线数仓的第一次课,课程主要内容:
1、认识数据仓库
数据仓库的概念和发展
Inmon(自上而下) + Kimball(自底向上) ==> CIF
2、数仓构建流程分析
业务建模 --> 领域建模 --> 逻辑建模 --> 物理建模
梳理业务流程 --> 数仓分域/主题 --> 指标体系梳理 --> 实体关系调研 --> 维度梳理 --> 数仓
分层 --> 模型建立
3、数仓建模
关系型数据库的范式理论
ER对象关系实体模型
维度模型
事实表+维度表
模型分层设计(ODS, DWD, DWS, ADS)
模型分类设计(星型模型,雪花模型,星座模型,Cube分析)
4、未来数仓发展趋势
自研工具平台
关注数据质量
数据血缘分析
开放查询平台
数据地图
![](https://csdnimg.cn/release/download_crawler_static/89309863/bg3.jpg)
课程详细内容
第一章 全域数仓背景与目标
1.1 早期面临的问题
1、95% 的表建在同一个数据库
2、表定义不规范,标准不统一
3、数据建模意识差,缺乏对业务的高度抽象
4、烟囱式开发,产生数据孤岛
5、各个业务团队各自建数仓
1.2 目标期望
1、可落地、可扩展,满足未来 2-3 年左右千万日活的业务体量
2、统一的数据仓库开发标准、规范
3、开放的数据存储、建模、计算能力
1、全域数仓背景与目标
2、全域数仓需求分析
3、企业级全域数仓构建
4、企业级数据采集平台架构设计
5、企业级数仓平台资源评估
6、数据治理功能模块设计实现
- xxx 库 3000+ 张表,表逻辑层次不清晰
- 表命名形式多样化,对应数据层级不清晰
- 字段采用关键字命名:”from”、”date”
- 时间分区形式不统一:yyyyMMdd、yyyy-MM-dd
- 默认以 textfile 格式存储,磁盘空间使用不合理
- 数据报表生产直接依赖底层表
- 数据、主题域划分不清晰
- 缺乏数据沉淀,重复计算浪费资源
- 数据RD在业务分工责任不明确,信息入口不能收拢、统一
- 数据调研投入不足:业务、需求、数据库
- 指标定义混乱,重复开发、数据冗余
- 风格多样化
- 管理维护成本高
![](https://csdnimg.cn/release/download_crawler_static/89309863/bg5.jpg)
3.3 数据开发流程
ZZ 是 58 旗下的一个子公司
3.4 数仓分层架构
数据来源(业务) ---> 数据仓库 ----> 数据应用
可维护性,可读性,可扩展性,......
mapreduce spark flink
3、服务协调
zookeeper etcd dubbo springcloud
4、资源调度
yarn mesos docker+k8s
5、数据采集
flume sqoop datax canal
6、元数据治理
atlas
7、部署 运维 监控
cdh hdp
8、任务调度
azkaban oozie dophinschedler airflow
9、自助报表分析
davinci
10、OLAP
doris clickhouse kudu druid ....