没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
2006 年 2 月 23 日
数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终
加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程。
IBM WebSphere DataStage 为整个 ETL 过程提供了一个图形化的开发环境。
引言
传统的数据整合方式需要大量的手工编码,而采用 IBM WebSphere
DataStage 进行数据整合可以大大的减少手工编码的数量,而且更加容易维护。
数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终
加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程。
IBM WebSphere DataStage 为整个 ETL 过程提供了一个图形化的开发环境。
本文将从以下几个方面来介绍 IBM WebSphere DataStage:
1. 数据源连接能力
2. 完备的开发环境
3. ETL Job 的并行执行能力
4. 开发一个简单的 ETL Job
出色的数据源连接能力
数据整合工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范
围。IBM WebSphere DataStage 能够直接连接非常多的数据源,包括:
1、 文本文件
2、 XML 文件
3、 企业应用程序,比如 SAP、Siebel、Oracle 以及 PeopleSoft
4、 几乎所有的数据库系统,比如 DB2、Oracle、SQL Server、Informix 等
5、 Web services
6、 WebSphere MQ
正是因为这么好的连接能力,IBM WebSphere DataStage 使用户能够专注
于数据转换的逻辑而不用太担心数据的抽取和加载。
完备的开发环境
IBM WebSphere DataStage 的开发环境是基于 C/S 模式的,通过
DataStage Client 连接到 DataStage Server 上进行开发。这里有一点需要
注意,DataStage Client 只能安装在 Windows 平台上面。而 DataStage
Server 则支持多种平台,比如 Windows、Redhat Linux、AIX、HP-
UNIX。
DataStage Client 有四种客户端工具。分别是 DataStage
Administrator、DataStage Designer、DataStage
Manager、DataStage Director。接下来首先介绍这几种客户端工具在
DataStage 架构中所处的位置以及它们如何协同工作来开发 ETL Job 的,接
着再分别详细介绍每个工具的功能。
图 1 描述了 IBM WebSphere DataStage 的整个系统架构。DataStage 的
客户端工具连接到 DataStage Server 上进行 ETL Job 的开发,DataStage
Server 再与后台的数据库连接起来进行数据处理。DataStage 的客户端工具
之间的是一个相互合作的关系。下面通过介绍 ETL Job 的开发过程来介绍他们
之间的这种关系。
ETL Job 开发流程
1. 用 DataStage Administrator 新建一个项目;
2. 用 DataStage Designer 连接到这个新建的项目上进行 ETL Job 的设计;
3. 用 DataStage Director 对设计好的 ETL Job 设置运行的模式,比如多长
时间运行一次 ETL Job;
4.用 DataStage Manager 进行 ETL Job 的备份等。
图 1:IBM WebSphere DataStage 架构图
DataStage Administrator
DataStage Administrator 的主要功能有以下几个:
1. 设置客户端和服务器连接的最大时间。
以管理员的身份登陆 DataStage Administrator。你就会看到如下图所示的
画面。在这里你可以设置客户端和服务器的最大连接时间,默认的最大连接时
间是永不过期。最大连接时间的意思就是如果客户端和服务器的连接时间超过
了最大连接时间,那么客户端和服务器之间的连接将被强行断开。
2. 添加和删除项目
在 Projects 这个标签中,可以新建或者删除项目,以及设置已有项目的属性。
这里有必要介绍一下项目的概念,要用 DataStage 进行 ETL 的开发,首先就
要用 DataStage Administrator 新建一个项目,然后在这个项目里面进行
ETL Job 的开发。
3. License 的管理
可以在 Licensing 标签中更新 License。
DataStage Designer
DataStage Designer 是 ETL Job 开发的核心环境。值得注意的是,登陆
DataStage Designer 的时候,不仅要指定 DataStage Server 的 IP,而且
要指定连接到这个 DataStage Server 上的哪个项目上面,上面已经提到
DataStage 的项目是由 DataStage Administrator 来创建的。DataStage
Designer 的主要功能可以概括为以下三个方面:
1. ETL Job 的开发
DataStage Designer 里面包含了 DataStage 为 ETL 开发已经构建好的组件,
主要分为两种,一种是用来连接数据源的组件,另一种是用来做数据转换的组
件。利用这些组件,开发人员可以通过图形化的方式进行 ETL Job 的开发。
2. ETL Job 的编译
开发好 ETL Job 后,可以直接在 DataStage Designer 里面进行编译。如果编
译不通过,编译器会帮助开发人员定位到出错的地方。
3. ETL Job 的执行
剩余28页未读,继续阅读
资源评论
死循环_Young
- 粉丝: 0
- 资源: 10
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功