没有合适的资源?快使用搜索试试~ 我知道了~
主数据产品技术白皮书附录.docx
需积分: 0 2 下载量 33 浏览量
2022-12-30
15:14:21
上传
评论
收藏 2.21MB DOCX 举报
温馨提示
试读
41页
主数据产品技术白皮书附录.docx
资源推荐
资源详情
资源评论
1
详细设计方案
产品技术白皮书附录
1.1.1 数据集成系统
本项目构建的数据集成系统,实现整个业务系统数据归集,降低数据归集的难
度,加强各委办单位数据安全防护。
数据集成系统提供多种类型数据的归集能力,实现结构化、非结构化等多种数
据类型数据归集。支持数据实时、非实时、全量、增量等多种数据归集方式。在数
据归集过程中,支持可对数据行或字段过滤,对敏感数据进行脱敏处理。支持从不
同类型的数据源中抽取数据,对数据进行格式、类型与标准转换,并将数据加载到
目标数据库中。满足多数据源支持、简单易用、实时增量、高性能、高可靠、清洗
转换、自动建表等功能特性。
本期项目中建设的数据集成系统,同时满足将共享的数据从内部的数据库归集
到前置库中,以及将数据从前置库同步至分布式大数据计算系统的性能要求。
1.1.1.1 功能简介
数据集成系统提供对企业数据集成处理功能。通过数据集成系统,用户可以从
不同结构的数据源中抽取数据( Extract ),对数据进行复杂的加工转换
( Transform ),最后将数据加载到各种存储结构中( Load )。例如实现从多
个异构的数据源(不同数据库、结构化文件等)抽取数据,并加工成统一的数据格
式,最后加载到数据仓库中,供商业智能( Business Intelligence , BI )等
应用使用。
数据集成系统提供简单、易用的开发、管理工具,提供从数据集成逻辑的设
计、开发、调试、部署,到运行、管理、监控各个生命周期不同阶段的集成开发工
具。通过数据集成系统可以实现对数据集成流程的开发和部署;通过监控和日志功
能,可以实现对数据集成的运行过程进行实时监视,对集成流程历史数据进行分
析。
数据集成系统提供强健、高效的数据处理引擎,支撑各种复杂的数据转换流
程、任务调度流程的高效运行。引擎采取异步并行处理的技术,实现流程中的每个
组件多线程并行高效处理;支持集群部署方式,允许将转换或转换中的比较耗时的
2
数据处理组件部署在多台服务器上并发执行,将转换的工作分摊到多台服务器上,
从而提高数据集成系统的数据处理效率。
数据集成系统基于 Java 技术和标准数据库接口( JDBC 、 ODBC 等),支持
部署在多种主流操作系统和国产操作系统上,支持与各种主流数据库、开源数据
库、国产数据库的接入,支持对各种结构化 / 非结构化格式文件的读写,以及通
过多种协议与其他应用系统的交互。
数据集成系统提供大量的任务组件和转换组件,如多源的数据合并、数据的路
由、数据行列转换、数据库表查询、数据校验、循环调度、流程告警等,用户可以
通过拖拽方式快速完成各种复杂的数据集成需求和集成的调度控制,无需人工编
码,快速构建数据集成应用。
数据集成系统提供 Web 形式的统一管理系统,用于将分布式网络环境中部署
的数据集成系统服务器运行实例、运行在数据集成系统服务内的任务流程集中统一
管理监控。同时管理系统提供丰富的管理 Rest API 接口、方便的管理扩展机制,
方便客户对统一管理系统进行集成并扩展自定义的插件到系统中。
1.1.1.2 架构设计
数据集成系统由集成开发平台、 ETL 引擎、元数据管理、监控系统四大核心
部分组成。
数据集成系统架构图
(一) 集成开发平台
集成开发平台是集开发、调试、配置、部署、执行、监控、日志、管理等功能
于一体的系统。通过该系统实现从数据集成需求到实现的快速转化,并实现对整个
生命周期的管理。
3
集成开发平台提供大量的任务组件和转化组件,通过这些组件,以图形化的方
式,实现数据集成流程的快速编排。并提供了功能强大的调试预览功能,可以在开
发过程中实现数据行级别的调试和预览,跟踪和观察每一行数据经过转化组件加工
处理后的结果。通过集成开发工具开发调试完成的数据集成流程保存到资源库中统
一存储管理。
集成开发平台通过 ETL 引擎的远程接口,实现对服务器的管理。包括数据集
成流程的分布式部署、远程执行、对执行状态的实时监控、对执行日志进行查看和
分析。
集成开发平台的监控管理功能可以对运行中的流程执行暂停、开始、停止、部
署等控制,同时还可以对数据处理状态进行实时监控,包括每个组件处理的记录
数、过滤的记录数,并且可以得到每个组件处理数据的性能指标和整个集成流程的
性能指标。
(二) ETL 引擎
ETL 引擎包含抽取引擎,转换引擎和任务引擎等多个组件,抽取引擎完成对数
据的抽取,转换引擎完成对数据加工处理流程的执行,任务引擎实现对任务调度管
理的任务流程。
抽取引擎可实现数据库全量和增量的抽取,对结构化非结构化二进制文件全量
和增量的抽取。
转换引擎可实现对数据清洗,脱敏,转换,稽查,合并,替换,过滤,校验等
一系列操作。
任务引擎可实现对转换的任务调度,可按秒、分钟、小时、周、月、年进行调
度,也可指定时间范围内进行调度。
(三) 监控系统
为方便使用者对数据集成系统进行运维监控,运维大盘实时显示数据集成系统
每个系统的运行状况,从而在系统出现状况时能快速的定位问题,如节点断线、
CPU 运行过高、内存泄漏等问题。
监控系统,提供对服务器、部署在服务器里的任务流程、转换流程的运行状
态、运行结果、日志、执行性能进行查看,远程的启动、停止、暂停、恢复等操
作;提供对服务器所在物理机器的 CPU 、内存、硬盘资源、网络 IO 等性能指标
进行实时监控。
4
(四) 元数据管理
元数据管理用于持久化存储数据集成系统的元数据,包括 ETL 引擎的配置信
息、任务流程信息、转换流程信息、基础资源信息(如数据库连接)等。数据集成
系统提供基于关系型数据库的元数据管理。
集成开发平台可以连接多个元数据库,在数据集成的开发调试阶段,可以将任
务流程、转换流程和其他资源存储在开发元数据库中。而对于已经完成开发调试,
进入发布阶段的流程,可以方便的导入到生产元数据库。
ETL 引擎也可以配置一个或多个元数据库,并可以根据部署描述符从资源库中
获取实际的流程信息,根据这些信息实例化实际运行的集成流程。元数据库的使用
不仅可以方便数据集成流程的开发和管理,还可以有效提高数据集成流程的部署效
率。
1.1.1.3 技术特点
(一) 多数据源
为打通不同数据系统的桥梁,数据集成系统支持多种数据源作为数据集成的源
或目标,包括大部分主流的关系型数据库,比如:Oracle、MySQL、DB2、
Teradata、SQL Server、PostgreSQL、Sybase 等。此外,对于需要使用数据集成
系统构建大数据集成系统的应用场景,能够支持与 Hadoop 系统的 HDFS 和 Hive 以
及阿里的开放数据处理服务(ODPS)组件的数据对接,以全量或者增量的形式将业
务系统的数据和大数据分析系统的数据进行集成。对于使用阿里云(公有云或专有
云)的用户,也可以利用数据集成系统将云上的 ODPS、ADS、DataHub、OTS 或 RDS
的数据与其他系统的数据进行对接,满足不同应用场景的需求。
表1 数据源类型支持列表
数据源类型
版本
Oracle
Oracle 10g、Oracle11g
MySQL
MySQL 5.1/5.6、RDS(MySQL
5.1/5.6)
MSSQL
SQL Server 2008、RDS(SQL
Server 2008)
5
PostgreSQL
PostgreSQL 9.4、
RDS(PostgreSQL 9.4)
SyBase
ASE16
DB2
IBM DB2 10.1
Teradata
Teradata 14.1
阿里云 RDS
MySQL 5.1/5.6
SQL Server 2008
PostgreSQL 9.4
ODPS
ODPS 0.16.7
支持 ODPS 分区、支持 ODPS
Package 读取数据
ADS
ADS 0.9
Hadoop Hive
Hive: hadoop-0.2x
Hive2: hadoop-2.6、cdh52
Hadoop HDFS
hadoop-0.2x、hadoop-2.6、
cdh52
HBase
HBase 0.90.3
FileServer
支持协议类型 SFTP/SMB/FTP/OSS
以及 Local 本地存储
MongoDB
MongoDB 3.0.12
DRDS
DRDS 2.2
Datahub
Datahub 2.3.0
OTS
OTS 2.2.5
Redis
-
EMR
-
(二) 简单易用
数据集成系统采用 B/S 架构,Web 托拉拽配置和结果显示,简单易用。
Web 托拉拽方式操作
剩余40页未读,继续阅读
资源评论
笑笑码
- 粉丝: 2
- 资源: 18
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功