spark笔记整理，2022年3月16日_spark笔记资源-CSDN文库

共4个文件

pdf：4个

spark

data

分布式

需积分: 5 151 浏览量 2022-03-16 21:43:18 上传评论收藏 19MB RAR 举报

资源详情

资源评论

资源推荐

收起资源包目录

spark.rar （4个子文件）

Spark原理及源码剖析.pdf 5.34MB

Spark讲义(上).pdf 8.64MB

Scala编程.V.0.8.pdf 2.88MB

Spark讲义(下).pdf 3.33MB

大数据高速计算引擎Spark（上）

课程内容：

MapReduce、Spark、Flink（实时） => 3代计算引擎；昨天、今天、未来

MapReduce、Spark：类MR的处理引擎；底层原理非常相似；数据分区、map

task、reduce task、shuffle



第一部分 Spark Core

第1节 Spark概述

1.1 什么是Spark

Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算引擎

2009年诞生于美国加州大学伯克利分校AMP 实验室

2010年通过BSD许可协议开源发布

2013年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.0

Spark Core -- 离线

Spark SQL -- 离线、交互

Spark Streaming -- 实时

Spark GraphX -- 图处理

Spark原理

2014年2月，Spark 成为 Apache 的顶级项目

2014年11月, Spark的母公司Databricks团队使用Spark刷新数据排序世界记录

Spark 成功构建起了一体化、多元化的大数据处理体系。在任何规模的数据计算中，

Spark 在性能和扩展性上都更具优势



Spark 是一个快速、通用的计算引擎。Spark的特点：

速度快。与 MapReduce 相比，Spark基于内存的运算要快100倍以上，基于硬

盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内

存来高效处理数据流；

使用简单。Spark支持 Scala、Java、Python、R的API，还支持超过80种高级算

法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala

的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法；

通用。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询

(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算

(GraphX)。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的

解决方案非常具有吸引力，企业想用统一的平台去处理遇到的问题，减少开发和

维护的人力成本和部署平台的物力成本；

兼容好。Spark可以非常方便地与其他的开源产品进行融合。Spark可以使用

YARN、Mesos作为它的资源管理和调度器；可以处理所有Hadoop支持的数

据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特

别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark

也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置

的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可

以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署

Standalone的Spark集群的工具。



1.2 Spark 与 Hadoop

从狭义的角度上看：Hadoop是一个分布式框架，由存储、资源调度、计算三部分组

成；

Spark是一个分布式计算引擎，由 Scala 语言编写的计算框架，基于内存的快速、通

用、可扩展的大数据分析引擎；

从广义的角度上看，Spark是Hadoop生态中不可或缺的一部分；



MapReduce的不足：

表达能力有限

磁盘IO开销大

延迟高

任务之间的衔接有IO开销

在前一个任务执行完成之前，后一个任务无法开始。难以胜任复杂的、多阶

段计算任务



MapReduce Spark

数据存储结构：磁盘HDFS文件系

统的split

使用内存构建弹性分布式数据集RDD对数

据进行运算和cache

编程范式：Map + Reduce

仅提供两个操作，表达力欠缺

提供了丰富的操作，使数据处理逻辑的代

码非常简短

计算中间结果落到磁盘，IO及序列

化、反序列化代价大

计算中间结果在内存中，维护存取速度比

磁盘高几个数量级

Task以进程的方式维护，需要数秒

时间才能启动任务

Task以线程的方式维护对于小数据集读取

能够达到亚秒级的延迟

Spark在借鉴MapReduce优点的同时，很好地解决了MapReduce所面临的问题。

备注：Spark的计算模式也属于MapReduce；Spark框架是对MR框架的优化；



在实际应用中，大数据应用主要包括以下三种类型：

批量处理（离线处理）：通常时间跨度在数十分钟到数小时之间

交互式查询：通常时间跨度在数十秒到数分钟之间

流处理（实时处理）：通常时间跨度在数百毫秒到数秒之间



当同时存在以上三种场景时，传统的Hadoop框架需要同时部署三种不同的软件。

如：

MapReduce / Hive 或 Impala / Storm



这样做难免会带来一些问题：

不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换

不同的软件需要不同的开发和维护团队，带来了较高的使用成本

比较难以对同一个集群中的各个系统进行统一的资源协调和分配



Spark所提供的生态系统足以应对上述三种场景，即同时支持批处理、交互式查询和

流数据处理：

Spark的设计遵循“一个软件栈满足不同应用场景”的理念（all in one），逐渐形

成了一套完整的生态系统

既能够提供内存计算框架，也可以支持SQL即席查询、实时流式计算、机器学习

和图计算等

Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案



Spark 为什么比 MapReduce 快：

1、Spark积极使用内存。MR框架中一个Job 包括一个 map 阶段（一个或多个map

task）和一个 reduce 阶段（一个或多个 reduce Task）。如果业务处理逻辑复杂，

此时需要将多个 job 组合起来；然而前一个job的计算结果必须写到HDFS，才能交给

后一个job。这样一个复杂的运算，在MR框架中会发生很多次写入、读取操作；

Spark框架可以把多个map reduce task组合在一起连续执行，中间的计算结果不需

要落地；

复杂的MR任务：mr + mr + mr + mr +mr ...

复杂的Spark任务：mr -> mr -> mr ......

2、多进程模型(MR) vs 多线程模型(Spark)。MR框架中的的Map Task和Reduce

Task是进程级别的，而Spark Task是基于线程模型的。MR框架中的 map task、

reduce task都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间。

Spark则是通过复用线程池中的线程来减少启动、关闭task所需要的系统开销。



评论收藏

内容反馈

冷酷无情小帅哥

粉丝: 4
资源: 5

spark笔记整理，2022年3月16日

评论0

最新资源

spark笔记整理，2022年3月16日

评论0

spark学习笔记

spark笔记.zip

spark笔记整理文档

spark学习笔记，完成于2022年04月13日

spark 笔记、学习笔记、资料

Spark学习笔记

Spark-Core学习知识笔记整理

Spark学习笔记 Spark学习笔记 Spark学习笔记

spark 2 笔记

大数据spark笔记.zip

spark源码阅读笔记

Spark Streaming Programming Guide 笔记

Spark笔记1

Spark2.4.0 学习笔记分享

RDD&SparkCore笔记.docx

Java第十五届蓝桥杯大赛软件JavaB组真题

SwitchHosts

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

Notepad++安装包

2024北森能力测评题库.7z

微信小程序源码-合集1.rar

Java面试八股文2023最新版

Linux Centos7 升级最新版OpenSSH-9.6p1 有脚本（支持离线）

JDK1.8 windows 64位

ruoyi-vue-pro 芋道源码项目的表结构

myeclipse 10.7.1 windows 安装包

ja-netfilter-all

2024最强Java面试八股文

最新资源