没有合适的资源?快使用搜索试试~ 我知道了~
数据仓库更新的新策略--工作流.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 193 浏览量
2022-06-13
09:59:59
上传
评论
收藏 716KB PDF 举报
温馨提示
试读
12页
数据仓库更新的新策略--工作流.pdf数据仓库更新的新策略--工作流.pdf数据仓库更新的新策略--工作流.pdf数据仓库更新的新策略--工作流.pdf数据仓库更新的新策略--工作流.pdf数据仓库更新的新策略--工作流.pdf数据仓库更新的新策略--工作流.pdf数据仓库更新的新策略--工作流.pdf
资源推荐
资源详情
资源评论
数据仓库更新的新策略--工作流
1.概述
数据仓库作为一种新技术,主要是为决策支持系统和 OLAP 应用提供软件架构。它从异构和分布式数据
源中收集数据,这些数据首先被聚合,然后按照 OLAP 所定义的组织标准进行定制。数据仓库的结构能够通
过一种分层存储的方式加以定义。这种方式涉及到的存储形式包括从底层的数据源到高度的聚合数据(数
据集市)。在这两种存储形式之间,按照OLAP 程序的要求,还存在一些其他不同的存储形式。其中之一就
是对操作型数据的存储,操作型数据是以单一和干净的方式来表征数据源中的数据。企业级数据仓库(CDW)
则包含高度聚合的数据,并且被组织成多维表的形式。从每个数据源中抽取的数据可以存储在中间数据容
器中。显然,这种分层存储方式只是一种逻辑上的表示方式,它体现了从数据源到数据集市的数据流动过
程。所有这些存储形式都不一定要具体实现,如果确实需要的话,他们也只能形成同一数据库的不同层面
而已。
图 1 显示了一种典型的数据仓库结构。这只是一个逻辑视图,它的具体实现,不同厂家有自己不同的
数据仓库产品解决方案。数据抽取和数据清洗的实现与每个数据源有关,对于不同的数据源提供有统一的
或定制的工具。同样,数据的一致性(多数据源清洗)既可以与数据集成(多数据源操作)分开也可以合
并到数据集成中进行。高级别的数据聚合工作可以看成一个计算技术的集合,这个集合的范围涵盖从简单
的统计函数到高级的数据挖掘算法。对于不同的数据集市来说,数据定制技术是不同的。关键在于决策者
想要看到的数据的详尽程度。
数据仓库更新是一个非常重要的过程,它决定了数据采集和数据聚合的实效性。确实,向决策者提供
的数据的质量与以下因素有关。首先,与数据仓库系统在合理的时间内将数据从数据源转换到数据集市的
能力有关。其次,与数据仓库对数据源中信息发生变化的敏感程度有关。大部分的设计考虑主要集中在对
数据结构的选取和数据的更新技术上,这里的数据更新技术指的是对数据仓库更新的优化策略。
在对数据仓库更新的理解方面在相关的文献上存在着很大的误区。确实,这个过程经常被简化为视图
维护问题或与数据导入混为一谈。本文的目的之一就是指出数据
图 1 数据仓库的体系结构
仓库的更新要比数据视图的维护问题要复杂的多,也不同于数据导入过程。我们把数据更新过程定义
为一个工作流,组成工作流的具体活动类型取决于数据抽取和数据清洗所应用的产品。与其配套的触发事
件则与应用的范围和对数据刷新频率的要求相关。
以下几节将分别描述数据更新过程的任务,并阐明在工作流中如何组织这些任务。第 2 节主要讨论数
据更新过程与数据导入及视图维护的不同。第 3 节定义了工作流的标准形式并结合一个工作流的例子逻辑
展现了数据仓库更新过程。第 4 节按照工作流的设计模式定义了数据仓库更新过程的语义。第 5 节归纳了
本文的主要思想,并涉及到一些实现方面的观点
2.视图维护,数据导入和数据刷新
数据仓库中的数据更新过程通常容易和数据仓库初始阶段所作的数据导入或对数据仓库中具体视图的
更新相混淆。这两种想法都是错误的。下面几段详细阐述数据更新和数据导入,数据更新和视图维护之间
的区别和不同。
数据导入和数据更新
数据仓库的数据导入过程存在于数据仓库建立初期,是数据仓库建立的关键阶段,它主要完成对数据
仓库中内容的初始计算。数据导入过程是一个全局过程,这个过程分为四个步骤(如图 2 所示):1,准备;
2,集成;3,高度聚合;4,定制。第一步由各个数据源完成,它主要包括数据抽取,数据清洗,可能还包
括数据归档(在数据清洗前后)等阶段。对历史数据进行归档,其作用在两个方面:一,在具用不同刷新
频率的数据源之间进行同步;二,用于一些特定的临时查询。第二步由数据的一致性处理和数据的集成处
理组成。它包括对从异构数据源中提取的数据进行一致性处理(多数据源清洗)和对从 ODS(操作型数据
库)的基表(基视图)中获取的数据进行清洗等两个部分。第三步由一些对派生于基视图的聚合视的计算
构成。在操作型数据库(ODS)中的数据是一些基本数据,他们具有程度很低的聚合程度,而企业级数据仓
库(CDW)中存放的数据通常是用聚合函数统计过的高度聚合的数据。第四步由对用户视进行派生和定制活
动组成,最后生成数据集市。数据定制指的是根据用户的需求形成不同的立方体,并向用户展示不同的侧
面。
图 2 数据导入过程
数据导入阶段的主要特点是它处于数据仓库设计项目的最开始阶段。在数据导入之前,对用户来说,
数据仓库是不存在的。因此,在反映时间上就不存在什么限制。但是,相反,对数据源来说数据导入阶段
要求数据源一直可用。
描述数据导入阶段的数据流是定义数据更新过程的基础,但是与之相对应的工作流却是不同的。数据
更新的工作流是动态的,能够跟踪用户的需求和检测数据源的变化,而数据导入过程的工作流是静态的,
由用户的当前要求和当前数据源的状况所定义的。
数据更新过程和数据导入过程的主要区别有以下几点:首先,对数据更新过程来说,组成其的各个活
动(准备,集成,聚集和定制)之间完全是异步进行的,第二,就准备活动本身来说,其过程也可以是高
度并行的,每个数据源都有自己的可用窗口和抽取策略。同步由数据集成活动来做。另外的一个不同之处
在于数据源的可用性上。数据导入阶段要求数据源长期可用,而数据更新阶段对使用数据源的操作应用程
序的负载要求比较轻。它要求每一个数据源具有确定的存取频率和一个严格限制的持续期。最后,对数据
剩余11页未读,继续阅读
资源评论
苦茶子12138
- 粉丝: 1w+
- 资源: 6万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功