http://www.pentahochina.com
1 Kettle 的使用
1.1 基本概念快速了解
Pentaho Data Integeration(Kettle)是一款开源的 ETL(Extract Transformation Load)
工具,用来完成数据的抽取,转换和加载工作。
源代码下载地址:svn://source.pentaho.org/svnkettleroot/Kettle/trunk
Bug 报告地址:http://jira.pentaho.com/browse/PDI
官方论坛: http://forums.pentaho.org/forumdisplay.php?f=135
中文论坛:http://www.pentahochina.com
当前版本:Version 4.3 (2012 年)
原作者: Matt
License: 4.3 以前 LGPL ,4.3 改为 Apache 2
Kettle 里有转换(Transformation)和 作业(Job)两个概念。
转换主要是针对数据的各种处理,一个转换里可以包含多个步骤(Step),每个
步骤就是一种数据处理方式,如表输入,文件输入,排序,分组,过滤,选择列,
拆分列,增加列等等。Kettle 内置了数十种步骤,另外还可以通过插件的方式由用
户自定义自己需要的步骤。
作业是比转换更高一级的处理流程,一个作业里包括多个作业项(Job Entry),
一个作业项代表了一项工作,常用的作业项有发送邮件,接收邮件,执行 shell 脚本,
FTP 等等。转换也是作业项之一,即一个作业里可以包括多个转换。一个作业项也
可以是其他的一个作业,即作业可以嵌套。作业项也可以通过插件的方式由用户自
定义。
转换和作业的设计都是通过 spoon 来完成的,spoon 就是 kettle 的图形界面设
计器。设计好的作业可以保存在文件(转换文件以 .ktr 为扩展名,作业文件以 .kjb
为扩展名)里,也可以保存在数据库(资源库)里。
设计好的作业可以使用 kitchen 来执行,设计好的转换使用来 pan 执行。
Kettle 可以使用本地机器来执行作业(Native Exec),也可以使用远程机器来
执行作业(Remote Exec),也可以使用多个机器以集群的方式共同执行一个作业
评论0
最新资源