带你深入浅出，彻底了解什么是Spark？_spark的作用我们为什么需要spark资源-CSDN文库

apache

66 浏览量 2021-01-20 12:25:10 上传评论收藏 616KB PDF 举报

资源详情

资源评论

带你深入浅出，彻底了解什么是带你深入浅出，彻底了解什么是Spark？？

大数据专业，或者人工智能，深度学习方向的小伙伴们一定对Spark这个名词不陌生吧~不认识也没有关系，今天Alice为大家带来关于

Spark的一个详细介绍。

文章目录文章目录激动人心的Spark发展史Spark为什么流行？1：优秀的数据模型和计算抽象2：完善的生态圈3.Spark VS HadoopSpark使用情况Spark

官方介绍Spark特点Spark运行模式1. local本地模式(单机)–开发测试使用2.standalone独立集群模式–开发测试使用3.standalone-HA高可用模式–

生产环境使用4.on yarn集群模式–生产环境使用5.on mesos集群模式–国内使用较少6.on cloud集群模式–中小公司未来会更多的使用云服务了解-

SparkRPC

激动人心的激动人心的Spark发展史发展史

大数据、人工智能( Artificial Intelligence )像当年的石油、电力一样，正以前所未有的广度和深度影响所有的行业，现在及未来公司的核心

壁垒是数据，核心竞争力来自基于大数据的人工智能的竞争。

Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台，

2009年诞生于美国加州大学伯克利分校AMP 实验室，

2010年通过BSD许可协议开源发布，

2013年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.0，

2014年2月，Spark 成为 Apache 的顶级项目

2014年11月, Spark的母公司Databricks团队使用Spark刷新数据排序世界记录

Spark 成功构建起了一体化、多元化的大数据处理体系。在任何规模的数据计算中，成功构建起了一体化、多元化的大数据处理体系。在任何规模的数据计算中， Spark 在性能和扩展性上都更具优势在性能和扩展性上都更具优势。

Hadoop 之父Doug Cutting 指出：Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的

MapReduce 引擎的使用将下降，由Apache Spark 取代)

Hadoop 商业发行版本的市场领导者Cloudera 、HortonWorks 、MapR 纷纷转投Spark,并把Spark 作为大数据解决方案的首选和核心计算引

擎。

2014 年的如此Benchmark 测试中， Spark 秒杀Hadoop ，在使用十分之一计算资源的情况下，相同数据的排序上， Spark 比Map Reduce

快3 倍！在没有官方PB 排序对比的情况下，首次将S park 推到了IPB 数据(十万亿条记录) 的排序，在使用190 个节点的情况下，工作负载在4

小时内完成，同样远超雅虎之前使用3800 台主机耗时16 个小时的记录。

2015年6月， Spark 最大的集群来自腾讯–8000 个节点，单个Job 最大分别是阿里巴巴和Databricks–1PB ，震撼人心！同时，Spark的

Contributor 比2014 年涨了3 倍，达到730 人：总代码行数也比2014 年涨了2 倍多，达到40 万行。

IBM 于2015 年6 月承诺大力推进Apache Spark 项目，并称该项目为：以数据为主导的，未来十年最重要的新的开源项目。这－承诺的核

心是将Spark 嵌入IBM 业内领先的分析和商务平台，并将Spark 作为一项服务，在IBMB平台上提供给客户。IBM 还将投入超过3500 名研究和开

发人员在全球10余个实验室开展与Spark 相关的项目，并将为Spark 开源生态系统无偿提供突破性的机器学习技术–IBM SystemML。同时，IBM

还将培养超过100 万名Spark 数据科学家和数据工程师。

2016 年，在有“计算界奥运会”之称的国际著名Sort Benchmark全球数据排序大赛中，由南京大学计算机科学与技术系PASA 大数据实验

室、阿里巴巴和Databricks 公司组成的参赛因队NADSort，以144美元的成本完成lOOTB 标准数据集的排序处理，创下了每TB 数据排序1.44美

元成本的最新世界纪录，比2014 年夺得冠军的加州大学圣地亚哥分校TritonSort团队每TB 数据4.51美元的成本降低了近70%，而这次比赛依旧

使用Apache Spark 大数据计算平台，在大规模并行排序算法以及Spark 系统底层进行了大量的优化，以尽可能提高排序计算性能并降低存储资

源开销，确保最终赢得比赛。

在FullStack 理想的指引下，Spark 中的Spark SQL 、SparkStreaming 、MLLib 、GraphX 、R 五大子框架和库之间可以无缝地共享数据和

操作，这不仅打造了Spark 在当今大数据计算领域其他计算框架都无可匹敌的优势，而且使得Spark 正在加速成为大数据处理中心首选通用计

算平台。

Spark为什么流行？为什么流行？

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论收藏

内容反馈

带你深入浅出，彻底了解什么是Spark？

评论0

最新资源

带你深入浅出，彻底了解什么是Spark？

评论0

最新资源

相关推荐

什么是EMC EMC是如何进行的？如何进行EMC整改，此文档包含了10以上 EMC文档，拥有此资源，让你对EMC彻底了解

深入浅出 spark

Hadoop从业者为什么需要Spark？

深入浅出spark.pptx

Spark SQL 2.3.0：深入浅出

Spark Contributor陈超分享深入浅出Spark

Spark Contributor陈超：深入浅出Spark

spark任务执行深入浅出

Spark2.3 深入浅出.pdf.zip

深入浅出iPhone／iPad IOS开发，中文完整扫描版

Spark是什么？Spark和Hadoop的区别

带你深入理解Spark核心思想走进Sprak的源码分析

深入理解Spark 核心思想与源码分析

Spark性能调优分享

Spark技术内幕 深入解析Spark内核架构设计与实现原理

深入理解Spark+核心思想与源码分析.pdf

Spark技术内幕 深入解析Spark内核架构设计与实现原理.pdf

大数据教程全面深入spark视频教程

Spark大数据技术与应用课件

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

NPPJSONViewer.zip

GD32替换STM32注意事项.pdf

XCP协议的规范文档

VS2015安装证书，JavaScript_ProjectSystem.msi，JavaScript_LanguageService.msi

CANoe通过CAPL脚本实现自动测试

蓝牙BLE协议中文版.pdf

Spark技术内幕深入解析Spark内核架构设计与实现原理

Spark技术内幕深入解析Spark内核架构设计与实现原理.pdf

Qt 5实现串口调试助手（源工程文件、0积分下载）