没有合适的资源?快使用搜索试试~ 我知道了~
DataStage 入门
需积分: 10 15 下载量 164 浏览量
2013-06-06
09:43:06
上传
评论
收藏 5.22MB DOC 举报
温馨提示
试读
51页
DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具
资源推荐
资源详情
资源评论
一、 简介
是一套专门对多种操作数据源的数据抽取、转换和维护过程
进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成
工具。
能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统
上的关系型数据库和普通的文件系统等。
常见的主要数据源有:
大型主机系统的数据库:、、、 等。
开发系统的关系型数据库:、、、、
! 等。
"#$ 系统:$%#&、$ 等。
普通文件和复杂文件系统,'($ 文件系统,) 等。
、*、 等 服务器系统。
+, 等 " 系统。
可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成
转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以
灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了
增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面
上拖拉操作和调用一些预定义转换函数来实现,复杂转换可以通过编写脚
本或结合其他语言的扩展来实现,并且提供调试环境,可以极大提高开发
和调试抽取、转换程序的效率。
二、 工作原理
的设计是基于数据流的概念。一个完整的数据流图( DataStage 作业),
从一个永久存储的数据源开始,并且执行一系列的增值转换和其他处理操作,最后加
载数据到一个永久的存储。
数据集(Data Set)就是对通过数据流程的记录的收集。一个数据集可以是屋里
放置在磁盘上,也可以是虚拟放置在内存中。数据在数据流中的 Stage 中移动使用的
是虚拟的数据集,这样可以大大提高性能;分区(在后面介绍)是在 Stage 的属性中
设置的。
三、 运行程序(工具)介绍
-. 服务
安装完成 后会在系统中注册三个 服务:
"#+!
(!
#$/!
. 0 程序
0 程序用于执行管理任务,如建立 用
户、建立和删除工程、建立清洗标准。
1 表示服务器地址,如果是本地请使用 ,如果是使用 -2.3.3.-
则需要在 安装目录配置映射关系文件。而用户名和密码一般与系统用户和密
码一致。
登录后有三中操作选项,其中 4 用于版本的控制;$5 用于设置工程项
目的属性; 。
&. 程序
程序用来编辑和管理用户工程的 的资料库。
包括工程的导入和导出等操作。
6. / 程序
/ 程序用于版本控制管理。
7. 程序
是一个 8 的管理、调试、 追踪的综合管理工具。
用来验证、时序安排、运行和监测企业版作业。
9. 程序
是整个开发的环境。用来编辑 的作业和表
的定义。
四、 中的 介绍
按照新建的 8 不同,所内置的 也不同。内嵌的 Stage 包括高性能访问
(加载和读)关系型数据库的强大组件,包括并行的关系型数据库。
中的 8 分类:
8:+:8 工作序
8:主应用 8
$8:并行执行 8
$0/:并行共享容器
!8:标准 !8,在 0; 下可以创建的 8
!0/:! 共享容器
(以下三个是新建 8 时的选项)
*;<8:
*;8(:
*;(5:
$= 选项列表
-> 4(常规)栏解释:
图例 名称 描述
<
注释
<
<
注释描述
,
带箭头的连接线,表示有源目标的过程
/
容器,可以包含该 8 的所有组件
+/
输入容器
++/
输出容器
> (数据库)栏解释:
图例 名称 描述
%?$
数据库 ? 访问@
-. 从 数据库读取数据或将数据写入
数据库
. 顺序执行或并行执行
&. 支持 的 1 分区
6. 支持 0、? 和 写入方法
7. 支持 (、自动产生 或用户定义
读取方法
%? 0
/
数据库访问:
1. 从 Oracle 数据库读取数据或将数据写
入 Oracle 数据库
2. 顺序执行或并行执行
3. 支持 0 和 ? 写入方法
4. 支持 ( 和 + 读取方法
"
/ 0
/
Informix 数据库访问
1. 从 Informix 数据库读取数据或将数据
写入 Informix 数据库
2. 顺序执行或并行执行
)$ 0
0
! 0
! 数据库访问
/
使用 / 访问数据库
#
数据库访问
"
的 " 数据访问
#0, 0
#0, 数据库访问
0$0+
0$0+ 数据访问
/$ 0
数据库访问
0
/
(0$
Teradata 数据库访问
1. 支持从 Teradata 数据库读取数据和将
数据写入Teradata 数据库
2. FastExport:Table、Auto-
generated SQL、User-generated
SQL
3. FastLoad:
Create、Append、Replace、Trunc
ate
4. 顺序执行和并行执行
5. 支持 TUF6.1、TTU7.0
(0 0
(0+<0
?
? 数据库访问
?
主程序 数据访问
#<
主程序 #< 数据访问
&> '(文件)栏解释:
图例 名称 描述
:+<'
从 一 个 Flat File 读 取 数 据 或 将 数 据 写 入
Flat File;通常是并行执行和可以配置成顺
序执行
从一个数据集读取数据或将数据写入一个数
据集;企业版隐藏了复杂的处理和在并行计
算机上并行存储数据到磁盘
'
从一个文件中读取数据或将数据写入文件;
并行执行
,+'
允许建立一个查找文件集或查找参考
"+
从一个或多个源程序读取数据
"(
将数据写入一个或多个目标程序
剩余50页未读,继续阅读
资源评论
aushai
- 粉丝: 1
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功