大数据采集整编系统解决方案定义
大数据采集整编系统解决方案定义是一种集成了数据采集、数据处理、数据分析和可视化功能的解决方案。该系统旨在将分散在不同数据来源的数据统一汇集到统一的服务中,并实现数据的动态更新。
一、系统功能概述
大数据采集整编系统解决方案主要包括三个模块:通用数据填报、网络情报数据采集和数据整编。系统架构如下:
* 通用数据填报:支持多样化、个性化设置,统一访问管理模板,实现自定义报表的数据采集功能。
* 网络情报数据采集:基于配置的采集规则,Scrapy引擎抓取网站数据,并存于本地数据库和文件系统中。
* 数据整编:对采集来的数据进行数据抽取、数据关系、数据结构、数据字典等处理。
二、数据流转块设计
数据流转块设计主要是指将采集来的数据统一处理、存储和分析的过程。该过程包括:
* 数据采集:通过Scrapy引擎抓取网站数据,并存于本地数据库和文件系统中。
* 数据处理:对采集来的数据进行数据抽取、数据关系、数据结构、数据字典等处理。
* 数据存储:将处理后的数据存储在数据库中。
* 数据分析:对存储的数据进行数据分析和可视化。
三、通用数据采集
通用数据采集模块主要是指根据XX各部门业务工作过程中数据采集报送的通用需求,设计实现需求的采报流程。该模块提供了:
* 可视化的数据采报需求管理
* 快捷易用的任务列表方便用户快速进行任务的查看并执行任务的相关操作
* 可组合多个条件进行任务查询筛选过滤功能
* 可视化的采报任务管理
* 可视化拖拉拽的报表设计及管理功能
* 数据采集、数据转存和系统管理等功能
四、网络情报数据采集
网络情报数据采集模块主要是指面向网络采集以网页文件为主的数据资源采集相关数据等。该模块提供了:
* 配置信息,统一采集分散在不同网络海量网页素材的数据
* 实现数据的动态更新
* 监控数据采集进度
* 采集日志信息查询
* 采集任务结果展示
* 对采集任务的启停功能的控制
五、数据整编模块
数据整编模块主要是指对从不同渠道采集来的数据进行数据抽取、加载、清洗、转换、集成和约简等处理。该模块提供了:
* 数据抽取和加载
* 数据清洗和转换
* 数据集成和约简
* 支持 CSV, 定长文件, JSON,XML 等文件的导入
* 数据分析工具实现数据校验、数据缺失值处理、数据去重、数据过滤、数据光滑去噪、数据补全、数据格式和精度转换等功能
六、可视化处理工作流设计
可视化处理工作流设计主要是指使用可视化工作流调度工具,设计数据处理工作流的设计,对数据处理方案进行任务化管理,实现执行日志记录和审计,多任务运行资源自动调度等功能。该模块提供了:
* 工作流调度DAG设计与管理的图形化工具
* 支持Shell、SQL、JDBC、HTTP等任务类型,以及自定义Java任务
* 用户设定好任务执行的逻辑执行顺序之后,可以自动运行工作流上的离线批处理任务