商务智能-第五章多维建模.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
商务智能-第五章多维建模 Lecture5-Dimensional Modeling 多维建模 1. 维度建模中的基本概念 1. 事实表 2. 维度表 3. 事实与维度的融合 1. 星型模型 2. 雪花模型 3. 数据⽴⽅体 1.1. 事实表 1. 事实表是维度建模的核⼼和基本表 2. 每⼀事实表都对应着⼀个或若⼲个"度量值" 1. 度量值是事实表的核⼼,也是趋势分析的对象 2. 通过事实表来记录维度值与度量值之间的关系 3. 事实表中的⼀⾏对应⼀个度量值 1. 事实表中的所有度量值必须具有相同的粒度 2. 粒度划分模型:事务,周期快照,累积快照 1. 事务: 1. 记录的事务层⾯的事实,保存的是最原⼦的数据,⼜称"原⼦事实表",事务事实表中的数据在事务时间发⽣后产⽣。 2. 粒度是⼀条记录,⽐如银⾏转账1块钱。 3. 更新⽅式是增量更新,具有稀疏性质,因为很多的事实可能不同时发⽣,是稀疏表,只有当天发⽣了操作才有记录。 2. 周期快照: 1. 以具有规律性的、可预见的时间间隔来记录事实,统计的是间隔周期内的度量统计。时间间隔:年、⽉、⽇等。 2. 周期快照没有粒度的概念,是周期+状态度量的组合,其粒度是每个时间段⼀条记录。 3. 周期快照事实表维度少于事务事实表,但是记录的事实要多于事实事务表。 4. 更新⽅式是增量更新,是稠密表,哪怕当天没操作也会有记录 5. ⽤于记录重复的可预测时间间隔的事实,⽐如每⽉账单。 3. 累积快照 1. 累积快照事实表存储的是不确定的周期的数据,他完全覆盖了⼀个事务或⼀个产品的⽣命周期的时间跨度,通常有多 个⽇期字段来记录关键时间点,⽐如订单的付款时间、发货时间、收货时间等。 2. 累积快照事实表只会有⼀条记录,数据会⼀直更新到过程结束。 3. 通常包含很多⽇期字段,并且会有⼀个⽤户只是最后更新⽇期的附加⽇期字段。 4. ⽤于记录较短周期,有着明确开始和结束状态等多个状态的过程。 4. 更多阅读: 1.1.1. 事实表中的度量值 1. 最常⽤的度量值:数值类型,⽅便处理 2. 度量值通常是⼀个可以连续取值的量,很少采⽤⽂本形式的度量值,因为⽂本没有办法处理。 3. 三种类型的度量值 1. 可做加法运算 2. 可沿着某些维度做加法运算:⽐如每天剩下的零钱按照时间加。 3. 不能做加法运算 1. 计数统计 2. 计算平均值 3. 取样统计 4. ⽆法量化不是量化本⾝的问题,⽽是体系的问题。 1.1.2. 事实表中的关键字 1. 每个事实表都有两个或两个以上的外关键字(Foreign Key) 1. 通过外关键字建⽴事实表与维表之间的联系,从⽽可以通过维度表来存取事实表中的度量值 2. 可以由外关键字的组合构成事实表的主关键字(Primary Key) 2. 销售量和销售额是度量值,可以体现出其关联关系。 3. 多少个维度就有多少个外关键字。 4. 事实表中单独的Primary Key是没有意义的,但有时候为了解决问题我们可能会引⼊新的关键字。 1.2. 维度表 1. 维度表是事实表的⼊⼝,为⽤户提供了使⽤数据仓库的接⼝。 2. 维度表中的维度属性通常⽤于定义事实表上的查询条件,也可作为定义报表和统计查询的"列"。 3. 维度表的定义通常包括 1. 尽可能多的列:和事实表的差别 2. 相对少的⾏(相对于事实表) 1.2.1. 维度表的属性组成 操作性数据环境中不会有这么多数据:只有部分数据是有意义的 1.2.2. 维度属性 1. 通常是⽂本数据,或者是离散数据 2. 尽量减少使⽤编码属性:对于⼈⽽⾔不好理解 3. 维度属性与度量值(属性)的区别 1. 度量值属性:有许多取值可能并可以参与统计运算的属性 2. 维度属性: 1. 离散的或取值可能不多的属性 2. 取值不变或很少产⽣变化的属性 1.3. 事实与维度的融合 将事实表及其相关的维表通过关键字进⾏连接 1.4. 维度建模案例 1. 维度建模案例之⼀:零售营销 2. 维度建模案例之⼆:库存管理 3. 维度建模案例之三:订单管理 4. 维度建模案例之四:客户关系管理 5. 注:上述案例及其图、表均引⾃:"数据仓库⽣命周期⼯具箱:设计、开发和部署数据仓库的专家⽅法"⼀书 2. 维度建模案例之⼀:零售营销 2.1. 维度建模的设计过程 1. 选取要建模的业务处理过程(分析型):根据分析需要 2. 定义业务处理的粒度:确定事实表中每⼀⾏的度量值的取值粒度,和多维度相关。 3. 选择事实表中的维度(事先已经建⽴):设计中⼀定是先设计好维度 4. 选择事实表中的度量值 1. 以分析对象为依据 2. 可以有多个度量值 2.2. 零售营销的需求分析 1. 数据的⼊⼝(数据驱动):前台POS机和后台的货物⼊库 2. 管理决策需要(⾯向主题):定价和促销 2.3.
剩余56页未读,继续阅读
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助