理及计算要求;提供多种数据采集工具,支持多种格式数据采集;提供接口服务,供二次开发应用
等。
大数据基础平台要求能够管理大数据中心集群的物理服务器资源,控制分布式程序运行,隐藏
下层故障恢复和数据冗余等细节,为大数据处理平台提供统一的管理、监控、维护等日常管理功能。
主要包括:资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的
管理界面。
大数据处理平台数据主要来自数据资源中心,包括基础库(人口库、法人库、地理信息库、视
频库)数据、主题库(业务数据库)数据和互联网数据,同时也支持其他外部系统数据来源。数据采
集系统要求提供多种数据采集工具,支持多种格式数据采集。对于结构化数据、非结构化数据以及
网络数据采用不同的采集工具进行数据导入。支持多种数据采集方式,比如 ETL、FTP、文件导入
导出、关系数据库数据等。
平台能够根据结构化数据和非结构数据的不同特点,分别提供数据仓库和分布式列式数据库存
储服务,底层支撑技术支持分布式文件系统,所有的数据可以形成多份副本均匀分布存储在各个服
务节点的存储上,保证数据可靠性和提高读写效率。
离线计算引擎(Mapreduce):离线分布式计算作为一个海量结构化数据离线处理与分析服务,
着力于实时性要求不高的海量数据(TB/PB 级别)离线处理。支持并行化、容错、数据分布、负载
均衡。离线计算引擎需要具有 PB 级的存储处理能力和计算吞吐能力,支持多应用多实例并发同时
计算并隔离应用数据和程序的能力。
支持 Mapreduce 等批量数据分布式计算框架。
支持作业查询预处理调度算法,可根据业务属性对指定的多个队列按照优先级的配置进行任务
的提交。
具备高可靠性,支持主控节点双机,避免单点故障不可恢复。
具备高度可扩展,可动态增加/削减计算节点,真正实现弹性计算。
支持离线计算组件界面配置化,可以对配置进行查看和修改,并立刻生效。
支持离线计算组件性能指标界面可视化,通过界面实时监控组件性能指标。
支持多租户权限管理能力,支持不同用户之间的资源隔离。
支持多应用多实例并发同时计算并隔离应用数据和程序的能力。
评论0
最新资源