- 数仓特点
- 面向主题:为数据分析提供服务,根据主题将原始数据集合在一起,属于OLAP在线分析处理系统,主要操作是批量读写,关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方法设计
- 集成:原始数据来源不同,需要整合成最终的数据,需要经过抽取、清晰、转换的过程
- 非易失:保存的数据是一系列历史快照,不允许修改,只允许通过工具进行查询和分析
- 时变性:数仓会定期接收、集成新的数据,从而反映出数据的最新变化
- 为什么要分层
- 分层的核心思想就是解耦,把复杂的问题简单化
- 业务需求逻辑五花八门,重复建设问题严重,清洗规则混轮,业务逻辑无法复用,造成资源浪费
- 数据故障难以评估范围,修复时间长
- 数据膨胀导致计算资源紧张,产出时间无法保证
- 无法屏蔽业务变动影响,修改一次业务就需要重新接入数据,影响整个数据
- 分层的好处
- 数据结构清晰:每一层都有它的作用域,方便定位问题
- 数据血缘追踪:精准定位
- 空间换时间:建设多层数据模型提供给用户使用,避免用户直接使用操作性数据库,有效访问数据
- 减少重复开发:开发通用中间层,减少重复计算
作者:MetaTrade
HADOOP数据仓库
相关推荐
YOLOv8有效涨点专栏
Snu77
YOLOv5改进有效专栏
Snu77
YOLOv8改进实战
迪菲赫尔曼
YOLOv9有效涨点专栏
Snu77
芒果YOLOv7原创改进
芒果汁没有芒果
智能家居与物联网项目实战
DS小龙哥
debezium
最笨的羊羊
YOLOv8原创自研
AI小怪兽
Python.
完美代码
【付费专栏】CANoe从入门到精通
汽车通信技术
【付费专栏】TC8一致性测试
汽车通信技术
★教程2:fpga入门100例
fpga和matlab
★教程1:matlab入门100例
fpga和matlab
RT-DETR有效改进专栏
Snu77
芒果YOLOv8原创改进
芒果汁没有芒果
Educoder实训
Ssaty.
OD机试 Py/Java/JS合集(A卷+B卷+C+D卷)
MISAYAONE
华为OD机试题库2024年
2023面试高手
倍福
光怪陆离的节日
华为OD面试手撕真题题库
MISAYAONE
# 第2章·通信—低阶调制解调
fpga和matlab
2024年机器学习&深度学习千例
人工智能_SYBH
PyTorch深度学习项目实战100例
海洋 之心
AutoSAR入门与实战系列「持续更新ing。。。」
糖果Autosar
黑猫带你学:eMMC协议详解
黑猫学长呀
深耕爬虫领域
吴秋霖
刷机维修进阶教程
安卓机器
- 博客详情
- 1Hivesql基础查询
- 2如何做好业务理解
- 3NLP总结
- 4大数据面试真题_数据仓库
- 5关于新一代票据业务系统最全介绍
- 6数据仓库常用几种建模方法
- 7数仓分层设计架构 详解-ODS-DWD-DWS-ADS
- 8基础进阶ODS、DWD、DWM等模型分层与项目实战
- 9数仓面试基础知识
- 10高逼格的 SQL 写法:行行比较
- 11如何学习SQL多表查询
- 12关于数据仓库与数据湖
- 13HIVE SQL lateral view 处理字段
- 14Hadoop、Spark等5种大数据框架对比
- 15Spark性能优化指南——高级篇
- 16Spark性能优化指南——基础篇
- 17Spark调优
- 18spark参数介绍
- 19基础进阶ODS、DWD、DWM等模型分层
- 20pyspark基础函数
- 21Hive SQL优化思路分享
- 22HiveSQL中的JOIN ON条件
- 23数据仓库:详解维度建模之事实表
- 24Pandas性能优化:进阶篇
- 25Pandas性能优化:基础篇
- 26数据分析落地全流程
- 27数据思维的关键是什么?
- 28SQL优化20招
- 299种最常用数据分析方法
- 30快速掌握数据分析思路
- 31Inmon 范式建模与 Kimball 维度建模
- 32Hadoop数仓知识小结
- 33数据分析的价值是什么?
- 34数仓建模方法和数仓分层架构
- 35构建指标体系
- 36HADOOP数据仓库
- 37Hive性能调优实战
- 38Hive常用函数
- 39数据清洗的一些梳理
- 40互联网公司在面试数据分析师的工作时具体会被问什么样的问题?