没有合适的资源?快使用搜索试试~ 我知道了~
大数据系统软件创新平台与生态建设.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 155 浏览量
2022-11-29
13:43:03
上传
评论
收藏 515KB DOCX 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/87205862/0001-0c4a21e7ace91f8175659f6a4e37299a_thumbnail-wide.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
12页
。。。
资源推荐
资源详情
资源评论
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/release/download_crawler_static/87205862/bg1.jpg)
摘要:
针对大数据系统软件开源生态发展现状、大数据系统软件技术与领域应用发展的迫 切需求
与工程化瓶颈,系统地介绍了大数据系统软件共性技术的研发思路以及大数据系统软 件国家工程
验室研制的“数为平台”的技术架构,包括大规模多源异构数据的一体化管理、异 构数据的交互
式分析框架、数据可视化与智能数据工程、大数据混源软件可信验证、领域大 数据应用开发与运
行环境等。给出了基于平台建设开放的大数据软件创新平台与生态的模 式,并在工业制造业、气
象环保服务领域开展应用示范。
关键词:
大数据系统软件;开源软件生态;领域大数据应用;国家工程实验室
引言
1
大数据系统软件连接大数据计算平台与大数据应用软件,是大数据系统的基础。大数据系统 软件
对分布式硬件平台资源进行统一抽象,为大数据处理提供一体化存储管理、分析框架、 全生命周
期数据工程、安全保障等基础共性功能,为大数据应用提供开发运行环境,是大数 据产业的"核
心驱动程序"。
国际大数据系统软件的发展以开源软件为主导方式,逐渐形成了以Hadoop、Spark.
TensorFlow 生态为代表的、支持大数据应用开发的共性基础软件与工具平台。例如以国际 开源
(
软件基金会 Apache)等社区为平台,实现了技术的快速演进,IBM 等公司也以开源 软件为基
础,包装了各自的商业化发行版本。Hadoop 是大数据领域非常重要的开源框架, 基于简单的编
程模型,对大型数据集进行分布式处理。Spark 是而向大规模数据处理的通用 引擎,现已形成包
括批处理、流式处理、统计分析、图计算等在内的数据分析软件栈。
TensorFlow 是将复杂的数据结构传输至人工智能神经网进行分析和处理的开源软件平台 , 用于
语音识别或图像识别等机器学习和深度学习任务。相比于成熟的关系型数据库技术,大 数据时代
![](https://csdnimg.cn/release/download_crawler_static/87205862/bg2.jpg)
的数据处理技术与系统更多被认为是"负载优化系统”。以谷歌公司为例,针对其网 页搜索服务
(
的需求设il 了分布式存储文件系统 GFS)、基于列族的无模式(schema-less) 存储与键值索
(
引、基于任意数拯切分 MapReduce)的髙容错分布式计算框架。
顺应大数据系统软件开源实践,聚焦领域化与生态化创新,是大数据系统软件的发展方向。 大数
据领域国家工程实验室作为一个公共的平台,通过大数据系统软件关键技术的创新和突 破,促进
大数据与各行业应用的深度融合,以应用带动大数据系统软件技术和产品研发,形 成一批代表性
示范应用案例。
大数据系统软件工程挑战
2
在"互联网+”时代,大数据应用正在从消费互联网发展到产业互联网,领域大数据应用与消 费互
联网应用有显著区别,数据类型以时序数据、科学数据、过程数据以及非结构化工程数 据等数据
类型为主,英使用者也从互联网公司的高级技术人员转变为传统领域的技术与业务 人员。这对当
前主要基于开源项目的大数拯系统软件技术和产品在领域数据特征、多源知识 融合、数据处理过
程、应用开发效率、安全可控保障等方而提出了新的挑战。大数据系统软 件关键技术的研发需求
主要包括以下几个方而。
( )
1 针对领域数据特征的挑战
为应对开源数据管理引擎产品能力缺失的问题,研发而向设备高频时间序列数据、遥感数据、 科
学数据等领域数据的管理技术,整合多种类型异构数据管理引擎的一体化管理技术以及而 向新型
硬件设备的优化技术,解决“不管用"的问题。
(
2)针对多源知识融合的挑战 为解决开源数据分析框架交互性与异构性支持不足的问题,研
发面向人与机器、算法协同工 作环境,实现差异化数据类型与负载和异构硬件设备的分析框架
自动适配,降低领域人员分 析应用门槛,解决"不会用"的问题。
(
3) 针对数据处理过程的挑战
为解决开源大数据软件栈中数据工程工具集较为欠缺的问题,研发数据采集、数据集成、数 据
![](https://csdnimg.cn/release/download_crawler_static/87205862/bg3.jpg)
淸理、数据可视化探索分析等丰富的数拯工程支撑工具,提升数据处理的效率,解决"不 够用”
的问题。
(
4) 针对应用开发效率的挑战
为应对开源大数据系统软件产品在应用开发上的能力缺失问题,研发支撑大数据应用开发与 运
行一体化、智能化的管理工具,领域大数据实验床以及面向新型硬件设备的优化能力的研 发和
工程化,解决"不好用"的问题。
(
5) 针对安全可控保障的挑战
为应对开源软件代码来源(链)难以控制、版本变化迅速、质量缺乏统一标准的问题,研发 而
向大数据应用的混源大数携系统的可信验证体系,实现对大数据系统软件可靠性、可用性、 正
确性等方而的可信验证,解决"不敢用”的问题。
最终,在大规模多源异构数摇一体化管理、交互式异构数据分析框架、数据可视化与智能数 据
工程、领域大数据应用开发运行环境、大数据混源软件可信验证等领域取得重大突破,通 过以
上 5 个方而形成大数拯系统软件体系,促进中国大数据产业的发展。
大数据系统软件技术架构
3
以工业领域为例,从领域数据特征角度来看,机器设备产生的高通量时间序列数据、设汁仿 真
阶段的非结构化工程数据等领域数据缺少有效的管理技术,同时对不同种类数据进行一体 化管
理的能力不足,缺少管用的大数据系统软件:从多源知识融合的角度来看,现有大数据 分析软
件使用门槛高、交互性支持不够,仅提供计算框架与分析类库,很难让具有机械、电 子、液
压、自动化等领域知识的技术人员独立使用;从数据处理过程的角度来看,由于大数 据可视
化、数据集成、数据淸理等数据工程工具缺失,工业领域的技术人员会花费大量的时 间反复尝
试手动对数据进行处理,分析效果也受到了制约:从应用开发的角度来看,大数据 应用系统开
发涉及的系统选型、参数配巻、模型选择、运行优化等工作步骤都需要基于专家 知识进行反复
迭代,应用开发使用门槛过高,加大了开发成本;从安全可控保障的角度来看, 混源大数据系统
的安全可信成为大数据开发利用亟待解决的核心问题。大数据系统软件国家 工程实验室针对以
上问题与需求,重点在大规模多源异构数据一体化管理、交互式异构数据 分析框架、数据可视
化与智能数据工程、领域大数据应用开发运行环境、大数据混源软件可 信验证等领域开展研
发,以形成开放的大数据系统软件体系,提升中国大数据产业的实践能 力。
剩余11页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/a71a690a54794121897a1839eb6efba6_g11176593.jpg!1)
G11176593
- 粉丝: 6709
- 资源: 3万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 苹果CMS红色red1电影影视主题网站模板
- 光大证券-20170725-阻力支撑相对强度(RSRS)选股-技术指标系列报告之三.pdf
- EMV 4.4 Book 1~4
- 1_pt_cfix .xlsx
- EMV 4.3 Book 1~4
- EMV 4.2 Book 1~4
- EMV 4.1 Book 1~4
- 基于Python实现的遥感图像的语义分割,分别使用Deeplab V3+和unet模型+源代码+文档说明+数据集.zip
- Python基于Django服装仓库进销存库存管理系统+源代码+文档说明+数据库(高分毕设)
- 2024魔改php版大屏微信墙互动展示系统 大屏幕互动系统程序动态背景图和配乐素材含搭建教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)