"大数据采集整编系统解决方案"
一、系统功能概述
大数据采集整编系统解决方案旨在统一汇集不同数据来源的数据,实现数据的动态更新。该系统主要包括三个模块:通用数据填报、网络情报数据采集和数据整编。通过数据调研成果,梳理确定各应用系统的数据对象、数据关系、数据结构、数据字典等,并确定采集各应用系统数据的具体方式。
二、数据流转块设计
数据流转块设计是大数据采集整编系统解决方案的核心部分。该模块通过通用的报表软件,支持多样化、个性化设置,统一访问管理模板,实现自定义报表的数据采集功能,大大提升数据采集效率。同时,通过 Scrapy 引擎抓取网站数据,并存于本地数据库和文件系统中。爬取的互联网等网络数据结果以文件形式传输至内网侧,数据服务平台的 ETL 工具将内网侧的互联网爬虫数据批量抽取到数据仓库集群中。
三、通用数据采集
通用数据采集模块设计实现需求的采报流程,提供可视化的数据采报需求管理、快捷易用的任务列表方便用户快速进行任务的查看并执行任务的相关操作。该模块提供数据需求提报的手段,为战略规划办制定年度采报计划或临时启动采报任务提供需求依据。数据来自采集终端形成的数据报表和数据文件、存储在各种业务数据库 / 数据仓库中的结构化数据,以及 HTML/XML/JSON/BSON 等各类半结构化、 pdf 文档、 word 文档、图片、多媒体等非结构化海量数据。
四、网络情报数据采集
网络情报数据采集模块负责面向网络采集以网页文件为主的数据资源采集相关数据等。该模块可以通过配置信息,将分散在不同网络海量网页素材的数据统一采集,并实现数据的动态更新。作业管理工具作为数据预处理的图形化工具,采用 web 交互的方式,提供工作流的调度实现数据接入和数据流转 ETL。
五、数据整编模块
数据整编模块依据战略规划数据资源体系相关的标准规范,对于从不同渠道采集来的数据进行数据抽取与加载、清洗与转换、集成与约简。该模块可以适配各类数据源,直接从 Oracle/DB2 等传统关系数据库将数据导入至数据服务平台。在不失效率的情况下避免了使用 Sqoop 带了的步骤繁琐,类型转换复杂等应用场景。支持 CSV, 定长文件, JSON,XML 等文件的导入。
六、可视化处理工作流设计
可视化处理工作流设计是大数据采集整编系统解决方案的重要组成部分。该模块能够可视化进行数据处理工作流的设计,对数据处理方案进行任务化管理,实现执行日志记录和审计,多任务运行资源自动调度等功能。工作流调度 DAG 设计与管理的图形化工具,支持 Shell、SQL、JDBC、HTTP 等任务类型,以及自定义 Java 任务。