002数仓建模理论知识
需积分: 0 156 浏览量
更新于2024-05-20
1
收藏 1.44MB PDF 举报
002数仓建模理论知识
三范式建模理论;
ER实体模型:
在信息系统中,将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述;
说起维度建模,你不得不知道以下几个概念:事实表、维度表、星型模型、雪花模型、星座模型
### 数仓建模理论知识详解
#### 一、三范式建模理论
在数据库设计领域,三范式(Third Normal Form,3NF)是一种重要的规范化标准,它旨在减少数据冗余并避免更新异常,从而确保数据的一致性和完整性。
**1.1 第一范式(1NF)**
- **定义**: 所谓的第一范式,是指数据库表中的每一列都是不可分割的基本数据项。换句话说,表中的每一列都必须是原子性的,不能包含多个值。
- **示例**:
- **非1NF**:
```
学生ID 姓名 课程名 成绩
001 张三 英语,数学 85,90
```
- **1NF**:
```
学生ID 姓名 课程名 成绩
001 张三 英语 85
001 张三 数学 90
```
**1.2 第二范式(2NF)**
- **定义**: 在满足第一范式的基础上,第二范式要求所有非主键字段完全依赖于整个主键,而不是主键的一部分。
- **示例**:
- **非2NF**:
```
学生ID 所属系 系主任 所修课程 分数
001 物理系 张三 英语 90
001 物理系 张三 数学 95
```
- **2NF**:
```
学生ID 所属系 系主任
001 物理系 张三
学生ID 所修课程 分数
001 英语 90
001 数学 95
```
**1.3 第三范式(3NF)**
- **定义**: 第三范式是在第二范式的基础上进一步消除传递依赖,即所有非主属性都不应该依赖于其他非主属性。
- **示例**:
- **非3NF**:
```
ID 商品ID 商品颜色 商家ID 用户ID
1 0002 白色 xx 0001
```
- **3NF**:
```
ID 商品ID 商家ID 用户ID
1 0002 xx 0001
商品ID 商品颜色 尺寸
0002 白色 30*40
```
#### 二、ER实体模型
实体-关系模型(Entity-Relationship Model,简称ER模型)是信息系统设计中的重要组成部分,用于描述系统的数据结构及其相互关系。它将事物抽象为“实体”、“属性”、“关系”。
**2.1 实体**
- **定义**: 实体指的是参与某个过程的具体对象或事物,如商品、用户等。
**2.2 属性**
- **定义**: 属性是对实体特性的描述,如商品的颜色、尺寸等。
**2.3 关系**
- **定义**: 关系描述了实体之间的联系,如用户购买商品的行为。
**2.4 ER图构建**
- **步骤**:
1. 抽象出实体。
2. 确定实体间的联系类型(一对一、一对多或多对多)。
3. 描述实体与关系的属性。
4. 使用特定符号绘制ER图(实体用矩形表示、关系用菱形表示、属性用椭圆表示)。
**2.5 ER图示例**
- **场景**: 课程管理系统
- 实体: 教师、学生、课程。
- 关系: 教师与课程(一对一)、学生与课程(多对多)、学生与班级(一对多)。
- 属性: 如教师ID、姓名、课程名称、成绩等。
#### 三、维度建模
维度建模是一种专门面向数据仓库的设计方法,主要用于提高查询性能和简化数据理解。它主要包括以下概念:
**3.1 事实表**
- **定义**: 事实表包含了具体的业务度量值,如销售额、订单数量等。
**3.2 维度表**
- **定义**: 维度表包含了描述性的信息,用于解释事实表中的数据,如时间维度、地点维度等。
**3.3 星型模型**
- **定义**: 星型模型是最简单的维度建模方式之一,其中事实表处于中心位置,周围是多个维度表。
**3.4 雪花模型**
- **定义**: 雪花模型是在星型模型基础上扩展而来的,它的特点是维度表之间可以有层级关系。
**3.5 星座模型**
- **定义**: 星座模型是星型模型的扩展,它允许多个事实表共享维度表,适合处理更复杂的数据结构。
### 总结
数据仓库建模是一项复杂但至关重要的任务,其目标是通过合理的设计来优化数据的存储、访问性能、成本控制以及提高数据质量。在实际应用中,选择合适的建模方法(如三范式建模、ER实体模型、维度建模等)对于构建高效的数据仓库系统至关重要。通过对这些理论和技术的深入理解与实践,可以帮助企业在大数据时代更好地利用数据资产,支持决策分析和业务发展。
不被定义喵
- 粉丝: 730
- 资源: 4
最新资源
- 中国移动数字政府白皮书(2024版)-数字政府发展分册.docx
- 中兴ZXD2400电源电路图图纸 图纸 线路图不是PCB图 2400电路图 4.1版本电子版(PDF)格式
- 信捷XC3与5台台达MS300通讯程序 可直接用于生产的程序,程序带注释,并附送触摸屏程序,有接线方式和设置,通讯地址说明等 程序采用轮询,可靠稳定 器件:信捷XC3的PLC,5台台达MS3
- 江西省行政村位置点矢量数据
- 2自由度机械臂轨迹跟踪控制,6自由度机械臂轨迹跟踪控制,基于强化学习DDPG的机械臂轨迹跟踪,控制算法,强化学习算法,将强化学习DDPG作为机械臂的轨迹跟踪控制器,simulink仿真
- 传统三矢量模型预测电流控制 (相邻有效矢量和零矢量)
- 湖南省行政村位置点矢量数据
- Matlab代码,风光火储网综合能源系统优化调度 包括热电厂热电机组(11台,电出力上下限受热出力的影响)、热电厂纯凝机组(4台),储能,储热,电转热设备(考虑与风电、热电厂出力配合的启停策略)风电
- FPGA万兆以太网 TCP IP协议栈,TCP支持Server,Client UDP 源码 xilinx器件移植方便
- 千兆以太网 FPGA TCP IP协议栈,TCP支持Server,Client UDP 源码 xilinx器件移植方便
- 360浏览器收藏夹文件·解码
- 麻雀搜索算法(SSA)优化BP神经网络做预测,matlab程序,预测精度比普通的BP大幅提升 预测结果评价指标: RMSE = 0.075659 MSE = 0.0057242 MAE = 0
- Gui-Guider1.8.1 MOC 苹果版本
- FPGA图像处理,Sobel边缘检测算法Verilog实现,AXI-stream接口,可讲解实现方法或直接卖现成模块 附带对应的matlab原理程序和一个简易的设计说明,可供参考 ~~~~~~~~
- 台湾省道路相关基础数据,适合做空间数据基础研究、道路相关等空间分析
- 基于多目标算法的冷热电联供型综合能源系统运行优化,构建含燃气轮机、燃气锅炉、电制冷机、蓄电池机组的冷热电联供系统优化模型,使用改进粒子群算法进行模型求解