数据仓库的数据建模技术
摘 要:本文分析了数据库设计和数据仓库设计区别, 总结了数据仓库两类主流的数据
模型: 企业级数据模型和多维数据模型, 系统分析了两类数据模型的层次, 探讨了多维数据
模型的分类以及用多维数据模型设计数据仓库的方法和步骤。
关键字: 数据仓库;企业级数据模型;多维数据模型;星型模型;多维数据库; OLAP
1 数据库设计和数据仓库设计的区别
与数据库系统类似,在数据仓库系统中,构建数据模型是建立数据仓库的关键步骤。
在数据库系统的设计过程中,数据模型的建立分为概念模型设计,逻辑模型设计和物
理模型设计。概念模型设计或描述可以用 E-R图(或扩展 Bachman图)来完成。在逻辑模型
设计阶段, 将概念模型转换为关系数据模型, 最后得到关系模式并对其进行规范化处理。 物
理模型设计给出数据存储结构和物理实现方法。
与上述数据库模型的建立过程对应,数据仓库的设计也包括:概念模型设计、逻辑模
型设计和物理模型设计。
虽然目前数据仓库还没有一个广为接受的形式化的设计方法, 但对于数据仓库设计, 以
下两点还是基本上得到了认可, (1)真正实现数据仓库之前至少要有一些关于概念或逻辑建
模的活动。( 2)数据仓库依赖于一个多维模型。因此,一般情况下,数据仓库的建模活动基
于多维模型来进行,而数据仓库的实现则通过关系型或多维数据库进行。
数据仓库中的数据具有四个基本特征:面向主题的、集成的、 相对稳定的、随时间不断
变化的。 这些特征说明了数据仓库从数据组织到数据建模、 数据处理都跟数据库的建立有很
大区别,表 1 给出了数据库设计与数据仓库设计的区别。
表 1 数据库设计与数据仓库设计的区别
数据库 数据仓库
系统设计的目标不同 面向应用,事务处理性能,
主要关注响应时间
面向分析 , 保证数据的四个基本特征,
支持 OLAP。
面向的需求不同 需求明确;称为“需求驱动
的设计方法”
需求不明确, 需要逐步确定; 称为“数
据驱动”设计方法。
面向的操作类型不同 增、删、改,动态变动 从原数据库系统中批量导入,定期更
新。
系统的建设方法和步
骤不同
系统开发生命周期法 由数据开始,“螺旋式开发”