没有合适的资源?快使用搜索试试~ 我知道了~
《数据仓库的建立》中文版,作者:William H.Inmon,主要讲大数据的数据仓库的建立理论与方法
资源推荐
资源详情
资源评论
下载
第1章 决策支持系统的发展
信息系统领域是一个“不成熟”的领域。“不成熟”这个词通常具有消极的含义,因而公
开使用这个词不得不多加小心。但是从历史的观点来看的确如此。如果我们将信息处理的历
史与其他技术领域的历史进行比较的话,就没有争议了。我们知道古埃及的象形文字主要是
当时的帐房先生用来表示所欠法老谷子的多少。当漫步在罗马市区,我们就置身于两千多年
前土木工程师所设计的街道与建筑物之间。同样,许多其他的领域也可追溯到远古时代。
因为信息处理领域只是从 6 0 年代初期才出现的,所以,历史地来看,信息处理领域是不
成熟的。
信息处理领域的年轻性表现之一就是其倾向于面面俱到。有这样一种说法,如果细节都
正确了,那么我们就可以坐享其成。这就好象是说,若我们知道如何铺水泥、如何钻孔、如
何安装螺母与螺栓,就不必操心桥梁的外型与用途了。如此态度会驱使一个成熟的土木工程
师发疯的。
数据仓库的历史是伴随某种发展过程开始的,在此发展过程中,业界中人士所考虑的是
投入更大的力量。更大规模的体系结构正在被勾勒出来
—
在这种体系结构中数据仓库处于
中心地位。最好从一种广阔的视角去观察这个体系结构,而不是从某种细节去认识。
1.1 演化
有趣的是,决策支持系统 ( D S S ) 处理是一个漫长而复杂的演化进程的结果,而且它仍在继
续演化。D S S处理的起源可以追溯到计算机发展的初期。
图1 - 1表明了从2 0 世纪6 0年代初期直到1 9 8 0 年的D S S 处理的演化进程。在 6 0年代初期,创
建运行于主文件上的单个应用是计算领域的主要工作。这些应用的特点表现在报表和程序,
常用的是C O B O L 语言。穿孔卡是当时常用的介质。主文件存放在磁带文件上。磁带适合于廉
价地存放大容量数据,但缺点是需要顺序地访问。事实上,我们常说,在磁带文件的一次操
作中,1 0 0 % 的记录都要被访问到,但是只有 5 % 或更少的记录是真正需要的。此外,访问整
条磁带的文件可能要花去 2 0 ~ 3 0 分钟时间,这取决于文件上是什么数据及当前正在做什么处
理。
大约在6 0 年代中期,主文件和磁带的使用量迅速膨胀。很快,处处都是主文件。随着主
文件数量的增长,出现大量冗余数据。主文件的迅速增长和数据的巨大冗余引出了一些严重
问题:
■ 需要在更新数据时保持数据的一致性。
■ 程序维护的复杂性。
■ 开发新程序的复杂性。
■ 支持所有主文件需要的硬件数量。
简言之,属于介质本身固有缺陷的主文件的问题成为发展的障碍。如果仍然只用磁带作
为存储数据的唯一介质,那么难以想象现在的信息处理领域会是什么样子。
图1-1 体系化环境的早期演化阶段
如果除了磁带文件以外没有别的东西可以存储大量数据,那么世界上将永远不会有大型、
快速的预定系统, AT M系统,以及其他系统。而事实上,在除磁带文件之外的种种介质上存
储和管理数据的能力,为采用不同的处理方式和更强有力的处理类型开辟了道路,从而把技
术人员和商务人员前所未有地聚集到一起。
1.2 直接存取存储设备的产生
到了1 9 7 0年,一种存储和访问数据的新技术出现了。这就是 2 0 世纪7 0年代见到的磁盘存
2发展数 据 仓 库
1 9 6 0
1 9 6 5
1 9 7 0
1 9 7 5
1980
• 复杂性
• 维护
• 开发
• 数据的一致性
• 硬件
很多主文件!!!
主文件,报表
D A S D
D B M S
数据库
—
所有处理的
单一数据源
联机高性能事务处理
个人计算机
第四代程序设计语言技术
tx 处理 M I S / D S S
单一数据库服务于完成所有目的
下载
储,或者称之为直接存取存储设备 ( D A S D ) 。磁盘存储从根本上不同于磁带存储,因为 D A S D
上的数据能够直接存取。 D A S D 就不需要经过第1条记录,第2条记录……,第 n条记录,才能
得到第n + 1 条记录。一旦知道了第 n + 1 条记录的地址,就可以轻而易举地直接访问它。进而,
找到第n + 1 条记录需要的时间比起扫描磁带的时间少得多。事实上,在 D A S D 上定位记录的时
间是以毫秒( m s ) 来计量的。
随D A S D 而来的是称之为数据库管理系统 ( D B M S ) 的一种新型系统软件。 D B M S的目的是
使程序员在D A S D 上方便地存储和访问数据。另外, D B M S关心的是在D A S D上存储、索引数
据等任务。随着 D A S D 和D B M S 的出现,解决主文件系统问题的一种技术解决方案应运而生。
“数据库”的思想就是 D B M S 的产物。纵观主文件系统所导致的混乱以及主文件系统累积的大
量冗余数据,就不会奇怪为什么把数据库定义为
—
所有处理工作的单一数据源。
但这一领域的发展并未在 1 9 7 0 年停止。到 7 0 年代中期,联机事务处理开始取代数据库。
通过终端和合适的软件,技术人员发现更快速地访问数据是可能的
—
这就开辟了一种全新
的视野。采用高性能联机事务处理,计算机可用来完成以前无法完成的工作。当今,计算机
可用于建立预定系统、银行柜员系统、工业控制系统,等等。如果仍然滞留在磁带文件系统
时代,那么今天我们认为理所当然的大多数系统就不可能存在了。
1.3 个人计算机/第四代编程语言技术
到了8 0年代,一些更新颖的技术开始涌现出来,比如个人计算机 ( P C ) 和第四代编程语言
( 4 G L ) 。最终用户开始扮演一种以前无法想象的角色
—
直接控制数据和系统,这超出了对
传统数据处理人员的界定。随着 P C 与4 G L 技术的发展,诞生了一种新思想,即除了高性能
联机事务处理之外,对数据可以做更多的处理。管理信息系统 ( M I S )
—
(早期被如此称呼)
也可能实现了。 M I S 如今称为D S S ,是用来产生管理决策的处理过程。以前,数据和技术不
能一并用来导出详细的操作型决策。一种新的思想体系开始出现,即一个单一的数据库既
能用作操作型的高性能事务处理,同时又用作 D S S 分析处理。图 1 - 1 表明了这种单一数据库
的范例。
1.4 进入抽取程序
大型联机高性能事务处理问世后不久,就开始出现一种称为“抽取”处理的程序(见图 1 -
2),这种程序并不损害已有系统。
抽取程序是所有程序中最简单的程序。它搜索整个文件或数据库,使用某些标准选择合
乎限制的数据,并把数据传到其他文件或数据库中。
抽取程序很快就流行起来,并渗透到信息处理环境中。至少有两个理由可以用来解释它
为什么受到欢迎:
■ 因为用抽取程序能将数据从高性能联机事务处理方式中转移出来,所以在需要总体分
析数据时就与联机事务处理性能不发生冲突。
■ 当用抽取程序将数据从操作型事务处理范围内移出时,数据的控制方式就发生了转变。
最终用户一旦开始控制数据,他 (她)就最终“拥有”了这些数据。
由于这些原因(以及其他众多原因),抽取处理很快就无处不在。到了 9 0年代已有了很多抽
取程序,如图1 - 3 所示。
第1章 决策支持系统的发展发展3
下载
图1-2 抽取处理的特性
1.5 蜘蛛网
图1 - 3显示抽取处理的蜘蛛网开始形成。起初只是抽取,随后是抽取之上的抽取,接着是
在此基础上的再次抽取,如此等等。对于一个大公司,每天进行多达 45 000次的抽取不是没
有听说过的。
贯穿于公司或组织的这种抽取处理模式很常见,以致得到一个专有名称。这种由失控的
抽取过程产生的结构被称为“自然演化体系结构”
—
当一个组织以放任自流的态度处理整
个硬、软件体系结构时,就会发生这种情况。组织越庞大,越成熟,自然演化体系结构问题
就变得越严重。
从总体上看,抽取程序形成了蜘蛛网,这正是自然演化 (或“传统系统”)体系结构的另一
4发展数 据 仓 库
为什么要进行抽取处理?
• 性能
• 控制
1 9 8 5
抽取程序
从一些参数开始,根据参数条件的满足搜索文
件,然后将数据拖到别处
抽取处理
下载
个名称。
1.6 自然演化体系结构的问题
与自然演化体系结构相关联的困难到底是什么呢?问题很多,主要有:
■ 数据可信性。
■ 生产率。
■ 数据转化为信息的不可行性。
1.6.1 数据缺乏可信性
以上问题之首是数据缺乏可信性,如图 1 - 4 所示。两个部门向管理者呈送报表,一个部门
说业绩下降了1 5 % ,另一个部门说业绩上升了 1 0 % 。两个部门的结论不但不吻合,而且相去甚
远。另外,两个部门的工作也很难协调。除非十分细致地编制了文档,否则对任何应用目的
而言,协调是不可能的。
第1章 决策支持系统的发展发展5
下载
1 9 9 0
传统系统环境
自然演化的体系结构(或称为“蜘蛛网”)
图1-3 抽取处理广泛采用必然是件好事情
剩余228页未读,继续阅读
资源评论
ChenVast
- 粉丝: 985
- 资源: 34
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python的图像阴影检测与去除源码(高分期末大作业项目).zip
- 基于C++/Qt实现的井字棋游戏
- 基于 Python 编程语言的 Web 框架Django
- Python和Flask实现的基于体检数据的城市公共健康可视分析系统源码+使用说明.zip
- 基于python实现的华为智慧工地-安全帽检测
- buck-boost_2023-12-16_12-12-13.eprj
- 后端开发关于数据库和API开发的介绍
- 机器学习和数据挖掘课程设计-米其林餐厅数据挖掘管理系统源码+使用文档说明.zip
- html html html展示我与ai的对化
- 数据结构课程设计-全国交通出行咨询模拟系统C语言实现源码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功