ETL 功能需求
1、 读取文件组件,适用于一般顺序文件(定长或不定长),可识别文本文件、excel、xml 等
文件。单一或多文件输入,单文件输出,能够识别各种自定义分隔符,文件内一条记录
的结束、配置好后能够预览数据,读多个文件时,采用并行方式,单个文件则顺序方式,
缺省情况下,一个节点读取一个完整的文件。可以定义多节点同时读取文件已提升性能,
写多个文件时,采用并行方式,单个文件则顺序方式,缺省情况下,一个节点写一个完
整的文件,单个节点可以写多个文件。支持动态字段的定义。
2、 拷贝组件,可以有一个输入,多个输出。它可以在输出时改变字段的顺序,但是不能改
变字段类型。
3、 筛选组件,只有一个输入,可以有多个输出。根据不同的筛选条件,可以将数据输出到
不同的输出连线上。
4、 合并组件,将多个字段相同的数据文件合并为一个单独的文件输出。可以按照指定的 key
值排序。
5、 转换组件,有一个输入,多个输出,可以将字段进行转换,也可以通过条件来指定数据
输出到那个输出连线上。在开发过程中可以使用拖拽。并且可以在每个输出连线上写条
件控制数据的转换输出,每个字段都可以映射到输出端。
6、 排序组件,只能有一个输入及一个输出,按照指定的 Key 值进行排列。可以选择升序还
是降序,是否去除重复的数据等等。
7、 数据关联组件,把数据读入内存执行查询操作,将匹配的字段输出,或者在在符合条件
的记录中修改或加入新的字段。
8、 连接组件,将多个表连接后输出。内连接:相同 key 的数据输出,不同的删除,左连接:
保留所有的 left 数据和其他输入数据 key 匹配的列,并删除其他输入数据的 key,右连
接:保留所有的 right 数据和其他输入数据 key 匹配的列,并删除其他输入数据的 key,
全连接:输出两个连接中所有的。
9、 合并组件,将 key 值相同的记录合并。
10、 修改组件,只能有一个输入及一个输出,它可以修改表结构:删除,保留一个字段;
给字段改名;修改字段的数据类型。
11、 写文件组件,将数据写入文件。
12、 连接主流数据库组件。如:oracle ,DM,DB2,MYSQL 等。
13、 分组计算组件,将输入的数据分组,计算各组数据的总和或者按组进行其他的操作,
最后将结果数据输出到其他的组件。
14、 去重复数据组件。输入根据关键字分好类的有序数据,去除所有记录中关键字重复
的记录。
15、 压缩与解压组件。
16、 比较组件,按字段比较两个文件,找出不同的记录。
17、 分割组件,将文件按照一定的条件(一般为字段的值)分割成多个子文件。具体是
将输入的每一条记录按照各自符合的条件(关键字的值)分配到不同的输出。
18、 调用存储过程,shell 命令组件。
19、 ETL 调度功能如下:
用户管理:新建、修改、删除用户组和用户以及用户组和用户的权限配置;
应用管理:新建、修改、删除应用主题与应用;
评论0