没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘课件:第6章 维度建模与OLAP技术.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 16 浏览量
2022-07-12
19:05:17
上传
评论
收藏 2.03MB PDF 举报
温馨提示
试读
20页
数据挖掘课件:第6章 维度建模与OLAP技术.pdf
资源推荐
资源详情
资源评论
P2
《数据仓库与数据挖掘》
第
第
6
6
章
章
维度建模与
维度建模与
OLAP
OLAP
技术
技术
6.1 多维模型
6.2 维的层次关系和类
6.3 维度建模
6.4 联机分析处理(OLAP)技术
6.5 多维数据分析
6.6 OLAP实现
P3
《数据仓库与数据挖掘》
6.1
6.1
多维模型
多维模型
数据仓库的数据库设计方法
• 关系模型方法
– 始于世纪70年代
– 标准化的数据以一种孤立模式存在,通过使用关键字
和外键在不同行的数据间建立关联,只使用标准化数
据的细节级数据。
• 多维数据模型方法
– 又称星型连接
传统的关系数据模型作为数据仓库的设计基
础,在实际数据仓库应用中还存在许多缺点
。
P4
《数据仓库与数据挖掘》
数据的2-D视图
客户
订单
产品
供应商
发货
一个简单的关系数据模型给
人的印象是所有的实体都是等
同的。实际上,由于种种原因
,数据仓库的实体绝不会是相
互对等的。一些实体,要求有
它们自己的特别处理。从数据
模型的角度看一个组织中的数
据和关系会发生失真。
实体的二维关系模型
P5
《数据仓库与数据挖掘》
供应商
发货
产品
客户
订单
实体数据的三维透视图
数据的3-D视图
实体的三维透视表现出
实体并不是平等的,有
些实体包含的数据远远
超过其他实体。
例如,代表供应商、客
户、产品、发货实体的
表中载入的数据量相对
较少,而代表订单实体
的表中却要载入大量的
数据,因此需要一种不
同的设计处理方式。
P6
《数据仓库与数据挖掘》
多维模型
多维模型
谁创造了维度方法?
• Ralph Kimball ?
– <数据仓库工具箱——维度建模的完全指南>
• General Mills与Dartmouth:最初提出“维度”
与“事实”的术语
• AC Nielsen和IRI:发布零售数据的维度中心
天然混成:只要将可理解性和性能作为最高
目标,维度建模就是当之无愧的首选。
P7
《数据仓库与数据挖掘》
多维模型方法
多维模型方法
--
--
星型连接
星型连接
“星型连接”:用来管理数据仓库中载入某个实体的
大量数据的一种设计结构。
星型连接
• 以一颗“星”为中心,周围围绕着其它数据结构
• 中心是一张事实表
• 事实表是包含大量数据值的一种结构。事实表的周围是
维表,用来描述事实表的某个重要方面。
• 维表的数据量要比事实表的少。
P8
《数据仓库与数据挖掘》
多维模型方法
多维模型方法
--
--
星型连接
星型连接
星型连接的一个例子
订单号
订单日期
订单数量
供应商号
…
客户号
…
发货单号
…
产品号
…
供应商号
…
…
客户号
…
…
发货单号
…
…
产品号
…
…
事实表
维表维表
P9
《数据仓库与数据挖掘》
多维模型-事实表
多维模型-事实表
事实:业务度量值
• 事实必须是数字类型和可加的
事实表:存放大量的业务性
能度量值
• 例如,每个商店每种商品每天
的销售数量和销售额
• 事实表的一行对应一个度量值
,事实表的所有度量值必须具
有相同的粒度
• 事实表通常行多列少
日销售情况事实表
日期关键字(PK)
产品关键字(FK)
商场关键字(FK)
销售量
销售额
P10
《数据仓库与数据挖掘》
多维模型-维度表
多维模型-维度表
维:分析的角度
• 礼、义、廉、耻,国之四维
;四维不张,国乃灭亡
维度表:富有意义的文字
性描述,提供详细的业务
用语属性,查询与报表的
来源
用来描述事实表的某个重
要方面
维度表通常列多行少
产品维度表
产品关键字(PK)
产品描述
SKU编号
商标描述
分类描述
部门描述
包装类型描述
包装尺寸
含脂量描述
食物类型描述
重量
重量单位
……其它
P11
《数据仓库与数据挖掘》
多维模型-事实与维度的融合
多维模型-事实与维度的融合
日销售情况事实表
日期关键字(PK)
产品关键字(FK)
商场关键字(FK)
事实……
产品维度表
产品关键字(PK)
产品属性……
商场维度表
商场关键字(PK)
商场属性……
日期维度表
日期关键字(PK)
日期属性……
P12
《数据仓库与数据挖掘》
多维模型
多维模型
事实(fact)表:用来存储变量值和各维的键值
• 事实表描述了主题的数据,维表是从不同的角度描述了
对主题的分析尺度
• 事实表表示维度之间的多对多关系
维表:用来存储维的描述信息(元数据),包括层次
和类等
• 维表就象星星的角一样,分布在事实表的外围,描述了
业务的各个维
• 维表是进入事实表的入口,维度给用户提供了使用数据
仓库的接口
P13
《数据仓库与数据挖掘》
多维模型
多维模型
维度模型的优点
• 简明性:维度模型最方便用户理解和浏览
• 对称性:所有维度都是对等的
• 性能上的好处:数据库优化器可以针对这种简
明结构专门优化
• 能自然的扩展以适应变化的需要
– 加入新的维度:与每个现有事实表行存在唯一性定义
– 加入新的事实表行:与现有事实表行保持相同粒度
事实表的粒度
• 事务、周期快照、累计快照
P14
《数据仓库与数据挖掘》
多维数据库模式
多维数据库模式
E-R数据模型广泛用于关系DB设计,数
据库模式由实体的集合和它们之间的联系组
成。此种模型更适用于联机事务处理。而数
据仓库需要简明的、面向主题的模式,便于
联机分析处理。
最流行的数据仓库数据模型是多维数据
模型,这种模型可以以星型模式、雪花模式
或事实星座模式形式存在。
P15
《数据仓库与数据挖掘》
1.
1.
星型模式
星型模式
由一个包含主题的事实表和多个包含事实
的非正规化描述的维度表构成。
维表
维表
维表 维表
维表
事实表
P16
《数据仓库与数据挖掘》
时间代码
商品类代码
分店代码
地区代码
销售额
销售量
销售额
事实表
时间代码
天
月
季
年
时间维表
地区代码
县
城市
省或自治区
国家
地区维表
分店代码
分店名
分店类型
分店维表
商品类代码
商品类名称
商品名
类别
供应商类型
商品维表
P17
《数据仓库与数据挖掘》
星形模式
星形模式
用户容易理解
• 星型模式准确地反映了用户是如何想的,他们
在分析时需要什么数据,从商业角度思考问题
• 浏览OLTP系统中的表连接关系,如同穿越规范
化表构成的迷宫,用户难以理解
适于查询处理
• 星型模型是一种以查询为中心的结构
• 每个查询都是简单地使用一些参数过滤维度表
• 星型连接是高速、并行、单独操作的多表连接
简单的连接路径方便了用户浏览数据库
P18
《数据仓库与数据挖掘》
星型模式
星型模式
2008年产的Ford吉普、在2009年1月份通过Big Sam汽车销售商
卖出,客户已婚、通过Daimler-Chrysler金融机构提供3年贷款
汽车
销售
产品
经销商
时间
付款
方式
客户的
人口统
计属性
P19
《数据仓库与数据挖掘》
通过星型模式理解查询
通过星型模式理解查询
Maine州的客户购买的,由销售人员Jane Doe在6月份销
售出去的,产品bigpart-1的销售量
P20
《数据仓库与数据挖掘》
2.
2.
雪花模式
雪花模式
雪花模式是星型模式的扩展形式。其中某
些维表是规范化的,由此维度表分解成与
事实表
直接关联的
主维度表
和与主维度表
关联的
次维度表
。
维表
维表
维表 维表
维表
事实表
维表
维表
P21
《数据仓库与数据挖掘》
时间代码
天
月
季
年
时间维表
分店代码
分店名
分店类型
分店维表
供应商维表
供应商代码
供应商类型
商品类代码
商品类名称
商品名
类别
供应商代码
商品维表
城市维表
城市代码
城市名
省或自治区
国家
地区代码
县
城市代码
地区维表
时间代码
商品类代码
分店代码
地区代码
销售额
销售量
销售额
事实表
P22
《数据仓库与数据挖掘》
雪花模式的优缺点
雪花模式的优缺点
优点
• 减少(很少的)存储空间
• 规范化的结构更容易更新和维护
缺陷
• 模式比较复杂,用户不易理解
• 浏览内容困难
• 额外的连接使查询性能下降
P23
《数据仓库与数据挖掘》
何时使用雪花模式
何时使用雪花模式
P24
《数据仓库与数据挖掘》
3.
3.
事实星座
事实星座
复杂的应用可能需要多个事实表共享维表
,这种模式可看作星型模式集,称为事实
星座。
维表
维表 维表
维表事实表 维表事实表
P25
《数据仓库与数据挖掘》
时间代码
商品类代码
分店代码
地区代码
销售额
销售量
销售额
事实表
时间代码
天
月
季
年
时间维表
地区代码
县
城市
省或自治区
国家
地区维表
分店代码
分店名
分店类型
分店维表
商品类代码
商品类名称
商品名
类别
供应商类型
商品维表
时间代码
商品类代码
供销商代码
来自地区
销售地区
销售额
销售量
供应商
事实表
供销商代码
供销商名
供应商类型
地区代码
供应商维表
剩余19页未读,继续阅读
资源评论
wxg520cxl
- 粉丝: 24
- 资源: 3万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功