数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、非容失的数据集合
区别
一线工人使用 管理层使用
支持日常操作 战略定向
事务处理 联机分析
面向应用 面向主题
当前数据 历史数据
可预测查询 不可预测查询模型
----------------------------------------------
dimension: 观测的角度 fact:观测值
OLAP: 间于数据仓库和前端分析工具之间,作用是规范,简化前端应用,降低数据传输量,提高效率
OLAP的基本多维分析操作
钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP主要的实现方法,
ROLAP:Relational OLAP 直接连接星型模式数据仓库
MOLAP:Multidimensional OLAP 利用多维数组实现数据存储,(数据库更新后需要刷新多维数组cube),
HOLAP:Hybrid OLAP 混合数据组织,如底层用关系型,高层用多维数组
----------------------------------------------
缓慢变化维:当维度与时间有依赖关系,并且需要跟踪记录这些变化的时候(Slowly Chaning Dimension),我们假设natural key是不变的,变化的是属性。如product 的部门属性发生变化,
基本TYPE1:覆盖:简单,容易
基本TYPE2:保留上一次的历史维度,导致维度表有2条记录。natural key 变得模糊,需要加额外的字段(部门名)来唯一确定。可以考虑加一个flag,标注最新维,或者一个时间戳。
基本TYPE3:增加新的字段,如previous_department
·还可以考虑混合型,如扩充3,增加更多的字段,如结合2和3
本内容试读结束,登录后可阅读更多
下载后可阅读完整内容,剩余2页未读,立即下载