没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Kettle 使用基础
marcle
1. 什么是 ETL
ETL , 是 英 文 Extract-Transform-Load 的 缩 写 , 用 来 描 述 将 数 据 从 来 源 端 经 过 萃 取
(extract)、转置(transform)、加载(load)至目的端的过程。通俗点讲就是一大堆数
据,经过 ETL 工具处理之后,转换成你需要的。
2. ETL 主流的工具有哪些
OWB(Oracle Warehouse Builder)
ODI(Oracle Data Integrator)
Informa!c PowerCenter(Informa!ca 公司)
Repository Explorer
AICloudETL
Ke*le
3. Ke*le 简要介绍
Ke*le 是一款国外开源的 ETL 工具,纯 java 编写,可以在 Window、Linux、Unix 上
运行,绿色无需安装,数据抽取高效稳定。
Ke*le 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,
然后以一种指定的格式流出。
Ke*le 这个 ETL 工具集,它允许你管理来自不同数据库的数据,通过提供一个图形
化的用户环境来描述你想做什么,而不是你想怎么做。
Ke*le 中有两种脚本文件,transforma!on 和 job,transforma!on 完成针对数据的基
础转换,job 则完成整个工作流的控制。
Ke*le 家族目前包括 4 个产品:Spoon、Pan、CHEF、Kitchen。
1. Spoon:一个图形用户界面,用来运行 transformation(转换)和 job(任务),
其中 transforma!on 是用 Pan 工具来运行,任务是用 Kitchen 来运行。
2. Pan:一个数据转换引擎,主要用来执行数据源读取,操作和写入数据等等功能。
3. Kitchen:一个运行任务(利用 XML 或数据资源库描述)的工具。
SPOON 允许你通过图形界面来设计 ETL 转换过程(Transforma!on)。
我们主要介绍的就是 ke*le 中 spoon 这款产品应用。
4. Ke*le 常见用途及特点
Ke*le 是一款非常灵活的产品,可以帮用户做很多事,包括:
不同数据库或应用之间的数据迁移。
可以充分利用云、齐群、并行处理向数据库中插入大数据集。
复杂的数据清洗。
支持 Hadoop(非关系型数据库)功能,包括 hadoop 工作计划和执行,简单
hadoop mapreduce 设计。
Ke*le 作为一款开源产品,有其本身的特点,包括:
安全简单,只需要配置 jdk 环境,然后将下载的文件解压即可
纯 java 实现,可以跨平台应用
数据处理效率非常高,平均可以到达 4000 条/秒以上。
使用简单,提供界面组件的形式,用户只需要拖动页面上面的组件,根据自己的
思路进行组合即可。因此对于了解计算机而非开发人员,也可以使用此工具进行
数据处理。
支持插件,用户可以自己扩充功能。
企业数据集成服务,提供包括 job 和转换的历史版本管理以及安全的集成、计划
及内容管理。
基于流的引擎架构为我们处理大数据量提供了可能性。
5. Ke*le 的安装
要运行 ke*le 工具必须安装 Sun 公司的 JAVA 运行环境, ke*le 4.2.0 需要运行
java 1.6 或者更高版本,Ke*le 的下载可以到 h*p://ke*le.pentaho.org/取得最新版本。
ke*le 不需要安装,安装好 java 环境后,在操作系统环境变量 path 中配置 jre 路径,
把 ke*le 工具压缩包解压后可直接使用。
要注意的是如果您的系统是 64 位,那么对应的 jdk 版本也要是 64 位,否则将无法
运行 ke*le。而 ke*le 本身已经做到 windows 与 linux、32 位与 64 位兼容。
6. 运行 Spoon
找到解压后的这个目录 pdi-ce-4.4.0-stable\data-integra!on
下面是在不同的平台上运行 Spoon 所支持的脚本: Spoon.bat:在 windows 平台运
行 Spoon。 Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。
7. 资源库介绍
资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在
资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形
式分组管理的,用户可以自定义文件夹名称。资源库有两种形式:
一、Ke*le database repository,即保存在各种常见的数据库资源库类型,用户通过
用户名/密码来访问资源库中的资源,默认的用户名/密码是 admin/adminguest/
guest
二、Ke*le @le repository,保存在服务器硬盘文件夹内的资源库类型,此类型的资
源库无需用户进行登录,直接进行操作。
8. 创建资源库
在此我以文件资源库为例,给大家介绍一下如何创建文件资源库。在上图中点击创
建文件资源的栏目。在 base directory 对应的栏目。
点击确定,再点击 ok 将进入到 spoon 的主界面,他是一个图形化的操作界面,用
起来非常的简单。主界面如下图:
9. 转换和任务介绍
一、转换 转换其实就是一个数据清洗的过程,在转换过程中包含的主要元素有:
1. 输入(excel、文本、数据库、xml、cvs 等输入)
2. 输出( excel、文本、数据库、xml、cvs 等输入)
3. 转换(字符处理、添加字段、值映射、字段拆分、字段选择等)
二、任务 就是类似与 oracle 中的 job,我们只要将任务关联到转换,然后设置任务
的执行情况,这样 spoon 就可以进行自动化处理了。
10. 转换
10.1. 输入
剩余25页未读,继续阅读
资源评论
- u0105581122013-07-27挺好的,不错,谢谢分享!
- gtttazndwgjy2015-02-13相当的可以,起到指导作用
- aa19407300022017-03-29很详细,可以用
欲心随
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功