002数仓建模理论知识
需积分: 0 112 浏览量
更新于2024-05-20
1
收藏 1.44MB PDF 举报
002数仓建模理论知识
三范式建模理论;
ER实体模型:
在信息系统中,将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述;
说起维度建模,你不得不知道以下几个概念:事实表、维度表、星型模型、雪花模型、星座模型
### 数仓建模理论知识详解
#### 一、三范式建模理论
在数据库设计领域,三范式(Third Normal Form,3NF)是一种重要的规范化标准,它旨在减少数据冗余并避免更新异常,从而确保数据的一致性和完整性。
**1.1 第一范式(1NF)**
- **定义**: 所谓的第一范式,是指数据库表中的每一列都是不可分割的基本数据项。换句话说,表中的每一列都必须是原子性的,不能包含多个值。
- **示例**:
- **非1NF**:
```
学生ID 姓名 课程名 成绩
001 张三 英语,数学 85,90
```
- **1NF**:
```
学生ID 姓名 课程名 成绩
001 张三 英语 85
001 张三 数学 90
```
**1.2 第二范式(2NF)**
- **定义**: 在满足第一范式的基础上,第二范式要求所有非主键字段完全依赖于整个主键,而不是主键的一部分。
- **示例**:
- **非2NF**:
```
学生ID 所属系 系主任 所修课程 分数
001 物理系 张三 英语 90
001 物理系 张三 数学 95
```
- **2NF**:
```
学生ID 所属系 系主任
001 物理系 张三
学生ID 所修课程 分数
001 英语 90
001 数学 95
```
**1.3 第三范式(3NF)**
- **定义**: 第三范式是在第二范式的基础上进一步消除传递依赖,即所有非主属性都不应该依赖于其他非主属性。
- **示例**:
- **非3NF**:
```
ID 商品ID 商品颜色 商家ID 用户ID
1 0002 白色 xx 0001
```
- **3NF**:
```
ID 商品ID 商家ID 用户ID
1 0002 xx 0001
商品ID 商品颜色 尺寸
0002 白色 30*40
```
#### 二、ER实体模型
实体-关系模型(Entity-Relationship Model,简称ER模型)是信息系统设计中的重要组成部分,用于描述系统的数据结构及其相互关系。它将事物抽象为“实体”、“属性”、“关系”。
**2.1 实体**
- **定义**: 实体指的是参与某个过程的具体对象或事物,如商品、用户等。
**2.2 属性**
- **定义**: 属性是对实体特性的描述,如商品的颜色、尺寸等。
**2.3 关系**
- **定义**: 关系描述了实体之间的联系,如用户购买商品的行为。
**2.4 ER图构建**
- **步骤**:
1. 抽象出实体。
2. 确定实体间的联系类型(一对一、一对多或多对多)。
3. 描述实体与关系的属性。
4. 使用特定符号绘制ER图(实体用矩形表示、关系用菱形表示、属性用椭圆表示)。
**2.5 ER图示例**
- **场景**: 课程管理系统
- 实体: 教师、学生、课程。
- 关系: 教师与课程(一对一)、学生与课程(多对多)、学生与班级(一对多)。
- 属性: 如教师ID、姓名、课程名称、成绩等。
#### 三、维度建模
维度建模是一种专门面向数据仓库的设计方法,主要用于提高查询性能和简化数据理解。它主要包括以下概念:
**3.1 事实表**
- **定义**: 事实表包含了具体的业务度量值,如销售额、订单数量等。
**3.2 维度表**
- **定义**: 维度表包含了描述性的信息,用于解释事实表中的数据,如时间维度、地点维度等。
**3.3 星型模型**
- **定义**: 星型模型是最简单的维度建模方式之一,其中事实表处于中心位置,周围是多个维度表。
**3.4 雪花模型**
- **定义**: 雪花模型是在星型模型基础上扩展而来的,它的特点是维度表之间可以有层级关系。
**3.5 星座模型**
- **定义**: 星座模型是星型模型的扩展,它允许多个事实表共享维度表,适合处理更复杂的数据结构。
### 总结
数据仓库建模是一项复杂但至关重要的任务,其目标是通过合理的设计来优化数据的存储、访问性能、成本控制以及提高数据质量。在实际应用中,选择合适的建模方法(如三范式建模、ER实体模型、维度建模等)对于构建高效的数据仓库系统至关重要。通过对这些理论和技术的深入理解与实践,可以帮助企业在大数据时代更好地利用数据资产,支持决策分析和业务发展。

不被定义喵
- 粉丝: 731
- 资源: 4
最新资源
- ShellTransition学习笔记
- 5G+AI智慧高校大数据顶层规划设计及应用方案(67页PPT).pptx
- 基于PWM的 三色灯RGB模块调色 标准库 代码
- 基于Simulink仿真的光储并网直流微电网模型研究:MPPT最大功率输出与混合储能系统的协同优化,基于Simulink仿真的光储并网直流微电网模型研究:MPPT最大功率输出与混合储能系统的协同优化
- JAVA实现有趣的迷宫小游戏(附源码).zip
- 基于NRBO-Transformer-BILSTM的深度学习模型:多特征分类预测与性能评估的Matlab实现,基于NRBO-Transformer-BILSTM的多特征分类预测模型与性能评估的Matl
- 磁链观测器在VESC中的应用方法及其代码、文档、仿真模型的对应关系以及附送翻译的Lawicel CANUSB驱动,磁链观测器在VESC中的应用:实现0速闭环启动,代码、文档、仿真模型供学习,磁链观测器
- 基于多智能体一致性算法的电力系统分布式经济调度策略:迭代优化与仿真验证,基于多智能体一致性算法与迭代计算的电力系统分布式经济优化调度策略(MATLAB实现),MATLAB代码基于多智能体系统一致性算
- 2013.8.5-2025.3.5碳排放权交易数据(日度).xlsx
- 中断上下文详细解析PDF详细内容
- VC-redist.x64-14.42.34438.0.7z
- MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入分类预测(含模型描述及示例代码)
- Matlab实现KOA-CNN-GRU-selfAttention多特征分类预测(自注意力机制)(含模型描述及示例代码)
- MATLAB实现SSA-CNN-BiLSTM-Attention多变量时间序列预测(SE注意力机制)(含模型描述及示例代码)
- 基于磁耦合谐振的无线电能传输设计:MATLAB仿真中的PWM控制与过零检测模块探讨及二极管与同步整流技术的结合应用 ,基于Matlab Simulink仿真的无线电能传输设计:磁耦合谐振与PWM MO
- 博图16立体车库控制系统:PLC运行效果视频展示与接线图详解,深度解析:4x5立体车库控制系统的博图16版本,含PLC运行效果视频、详细接线图及IO表,4x5立体车库控制系统 博图16 带PLC运行效