第11章数据仓库
11.1关于数据仓库
11.1.1从事务数据到决策知识
• DBMS的发展轨迹清晰的表明,它是在服务于联
机事务处理(Online Transaction Processing,
OLTP)中不断完善和丰富起来的,特别是基于
E.F.Codd提出的关系理论的数据库的技术,将数
据集分成了甚少冗余的实体(Entity),并利用关
系(Relationship)将这些实体组织成一个有机的
整体,较好地满足了OLTP的应用需求。其主要目
的在于操作数据,而不在于分析数据,因此它提
供了强大的数据存取、增添、删除、修改等操作
的功能体系。
• 另一方面,由于这些数据资料十分繁杂、
零乱甚至互相矛盾,而且缺乏集中存储管
理和一致的应用接口,从而导致已有的数
据其实也不能为预测和决策服务提供多少
有用的信息。这相对于数据库系统的投入
而言是一种极大的资源浪费。
• 1 基于事务数据库的DSS的缺陷:
• (1) 数据缺乏组织性。DSS需要集成的数据,全面而正确
的数据是有效的分析和决策的首要前提,相关数据收集得
越完整,得到的结果就越可靠,DSS必须依赖数据库抽取
技术进行数据的重组。抽取程序的任务是搜索整个数据库
,利用某些算法和规则选择符合要求的数据,并把数据传
到其他数据库中。但实际应用中,由于各种业务数据分散
在异构的分布式环境中,数据源中数据会随着时间的推移
而发生变化,而各个部门抽取的数据没有统一的时间基准
,抽取源、抽取算法、抽取级别也各不相同,因此数据缺
乏可信性,DSS的可信度和效果也随之大大降低。
• (2) 业务数据本身大多以原始的形式存储,难以转
换为有用的信息。事务处理的目的在于使业务处
理自动化和简单化,因此数据的表达上尽可能简
化以利于存储,即使是描述同一属性,在不同的
库中也可能有不同的表达方式。考虑对某人“性别
”的编码,在数据库A中编码为‘m’,而在数据库B
编码为‘男’,则DSS分析时该如何采信这些数据。
因此事务处理应用中数据的分散性、数据的不一
致性,增加了DSS的推理分析问题的难度、速度
以及正确性。
评论0