系统设计与架构笔记系统设计与架构笔记:ETL工具开发和设计的建议工具开发和设计的建议
好久没写博客了,不是自己偷懒,的确是没有时间哦。
最近项目组里想做一个ETL数据抽取工具,这是一个研发项目,但是感觉公司并不是特别重视,不重视不是代表它不重要,而
是可能不会对这个项目要求太高,能满足我们公司的小需求就行,想从这个项目里衍生出更多的东西估计难。昨天领导让我写
写自己的见解,今天写了点,不过说见解还真不敢,所以取了个名字叫建议了,今天把这个文档贴到自己博客里和大伙分享分
享。
贴文档之前,我想很多朋友估计并不熟悉ETL,如果接粗过数据挖掘一定对ETL很熟悉了,ETL是数据挖掘里非常重要的一
环,具体什么是ETL,大家看下面这段文字:
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,
能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步
骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难
部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,这是国内外从众多
实践中得到的普遍共识。
ETL是数据抽取(EXTRACT)、转换(TRANSFORM)、清洗(CLEANSING)、装载(LOAD)的过程。是构建 数据仓库
的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库
中去。
我们所要做的ETL工具不是针对数据仓库,说白了就是要个安全稳定的数据库数据导出导入工具。下面就是我写的文档,希望
童鞋们看了后请多多指教。
1.1. 概述
如图1-1:
ETL工具共分为三大模块:ETL核心模块、日志模块和WEB模块。
1.1.1. ETL核心模块
ETL核心模块是整个ETL工具的核心,它主要的功能是根据事先定义好的规则将源数据库的数据抽取到目标数据库。其主要工
作流程是:
数据抽取-->数据转换-->数据清洗-->数据加载
ETL工具里的配置数据库必须包含两个方面的数据:
1.元数据:元数据主要是指源数据、目标数据库以及可以用于抽取的表、字段等等信息,还有一些相关函数的定义等等。
2.ETL任务信息:ETL任务在我们ETL工具里称作job,job是指一个将数据从源数据库导出,并且按照一定规则导入到目标数据