没有合适的资源?快使用搜索试试~ 我知道了~
DataStage V7.5 学习总结.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 130 浏览量
2021-12-24
22:19:48
上传
评论
收藏 1.05MB DOC 举报
温馨提示
试读
18页
DataStage V7.5 学习总结.doc
资源推荐
资源详情
资源评论
如有侵权,请联系网站删除,仅供学习与交流
【精品文档】第 1 页
一、
二、
三、
四、
五、
六、
七、
八、
九、 DataStage V7.5 学习总结
如有侵权,请联系网站删除,仅供学习与交流
【精品文档】第 2 页
十、DataStage 简介
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程
进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工
具。
DataStage 能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统
上的关系型数据库和普通的文件系统等。
常见的主要数据源有:
➢ 大型主机系统的数据库:IMS、DB2、ADABAS、VSAM 等。
➢ 开发系统的关系型数据库:Informix、Oracle、Sybase、DB2、Microsoft SQL Server
等。
➢ ERP 系统:SAP/R3、PeopleSoft 等。
➢ 普通文件和复杂文件系统,FTP 文件系统,XML 等。
➢ IIS、Netscape、Apache 等 Web 服务器系统。
➢ Outlook 等 Email 系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成
转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以
灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了
增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面
上拖拉操作和调用一些 DataStage 预定义转换函数来实现,复杂转换可以通过编写脚
本或结合其他语言的扩展来实现,并且 DataStage 提供调试环境,可以极大提高开发
和调试抽取、转换程序的效率。
十一、 DataStage 工作原理
1
A1
ClientDesigner
IMS
DB2
ADABAS
VSAM
Oracle
DB2
Sybase
Informix
SQL Server
XML
PeopleSoft
EMC
FisrtLogic
Trillium
Complex
Flat Files
FTP
IIS
Apache
Netscape
Outlook
DataStage
Server
Manager
BW
DW
DM
Reporting
Data Mining
Query
Anaiytic
Applications
【Data Quality Assurance】
Meta Data Managerment
DataStage XE
Architecture Overview
DataStage 的设计是基于数据流的概念。一个完整的数据流图(DataStage 作业),
从一个永久存储的数据源开始,并且执行一系列的增值转换和其他处理操作,最后加载
数据到一个永久的存储。
如有侵权,请联系网站删除,仅供学习与交流
【精品文档】第 3 页
数据集(Data Set)就是对通过数据流程的记录的收集。一个数据集可以是屋里放
置在磁盘上,也可以是虚拟放置在内存中。数据在数据流中的 Stage 中移动使用的是虚
拟的数据集,这样可以大大提高性能;分区(在后面介绍)是在 Stage 的属性中设置的。
十二、 DataStage 运行程序(工具)介绍
1. DataStage 服务
安装完成 DataStage 后会在系统中注册三个 DataStage 服务:
➢ Datastage Engine Resource Service
➢ Datastage Telnet Service
➢ DSRPC Service
2. DataStage Administrator 程序
DataStage Administrator 程序用于执行管理任务,如建立 DataStage 用户、
建立和删除工程、建立清洗标准。
Host system 表示服务器地址,如果是本地请使用 localhost,如果是使用 127.0.0.1
则需要在 DataStage 安装目录配置映射关系文件。而用户名和密码一般与系统用户和密
码一致。
登录后有三中操作选项,其中 General 用于版本的控制;Projects 用于设置工程项
目的属性;Licensing。
3. DataStage Manager 程序
DataStage Manager 程序用来编辑和管理用户工程的 DataStage 的资料库。
包括工程的导入和导出等操作。
4. DataStage Version Control 程序
DataStage Version Control 程序用于版本控制管理。
5. DataStage Director 程序
DataStage Director 是一个 Job 的管理、调试、log 追踪的综合管理工具。
用来验证、时序安排、运行和监测企业版作业。
6. DataStage Designer 程序
DataStage Designer 是整个开发的环境。用来编辑 DataStage 的作业和表
的定义。
十三、 DataStage 中的 Stage 介绍
按照新建的 Job 不同,所内置的 Stage 也不同。内嵌的 Stage 包括高性能访问(加
载和读)关系型数据库的强大组件,包括并行的关系型数据库。
如有侵权,请联系网站删除,仅供学习与交流
【精品文档】第 4 页
DataStage 中的 JOB 分类:
➢ Job Sequence:Job 工作序
➢ Mianframe Job:主应用 Job
➢ Parallel Job:并行执行 Job
➢ Parallel Shared Container:并行共享容器
➢ Server Job:标准 Server Job,在 Windows 下可以创建的 Job
➢ Server Shared Container:Server 共享容器
(以下三个是新建 Job 时的选项)
➢ New Data Migration Job:
➢ New Job from Template:
➢ New Template from job:
Palltte 选项列表
1) General(常规)栏解释:
图例
名称
描述
Annotation
注释
Description
Annotation
注释描述
Link
带箭头的连接线,表示有源目标的过程
Container
容器,可以包含该 Job 的所有组件
Input Container
输入容器
Output Container
输出容器
2) Database(数据库)栏解释:
图例
名称
描述
DB2/USD API
DB2/USD Load
IBM DB2 数据库 USD 访问:
1. 从 DB2 数据库读取数据或将数据写入
DB2 数据库
2. 顺序执行或并行执行
3. 支持 DB2 的 Hash 分区
4. 支持 Load、Upsert 和 Write 写入方法
5. 支持 Table、自动产生 SQL 或用户定义
SQL 读取方法
Oracle OCI
Oracle Express
Oracle 数据库访问:
1. 从 Oracle 数据库读取数据或将数据写入
Oracle 数据库
2. 顺序执行或并行执行
3. 支持 Load 和 Upsert 写入方法
4. 支持 Table 和 Query 读取方法
剩余17页未读,继续阅读
资源评论
love87421
- 粉丝: 0
- 资源: 6万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功