七个PDF理解Spark资源-CSDN文库

共7个文件

pdf：7个

Spark

需积分: 9 74 浏览量 2018-04-17 15:30:40 上传评论收藏 17MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

七个PDF理解Spark.zip （7个子文件）

Spark

1-Overview.pdf 1.73MB

3-JobPhysicalPlan.pdf 2.06MB

5-Architecture.pdf 5MB

7-Broadcast.pdf 712KB

4-shuffleDetails.pdf 2.59MB

6-CacheAndCheckpoint.pdf 1.92MB

2-JobLogicalPlan.pdf 5.57MB

典型的 Job 逻辑执行图如上所示，经过下面四个步骤可以得到最终执行结果：

从数据源（可以是本地 file，内存数据结构， HDFS，HBase 等）读取数据创建最初的 RDD。上一章例子中的

parallelize() 相当于 createRDD()。

对 RDD 进行一系列的 transformation() 操作，每一个 transformation() 会产生一个或多个包含不同类型 T 的 RDD[T]。

T 可以是 Scala 里面的基本类型或数据结构，不限于 (K, V)。但如果是 (K, V)，K 不能是 Array 等复杂类型（因为难以

在复杂类型上定义 partition 函数）。

对最后的 final RDD 进行 action() 操作，每个 partition 计算后产生结果 result。

将 result 回送到 driver 端，进行最后的 f(list[result]) 计算。例子中的 count() 实际包含了action() 和 sum() 两步计算。

RDD 可以被 cache 到内存或者 checkpoint 到磁盘上。RDD 中的 partition 个数不固定，通常由用户设定。RDD 和

RDD 之间 partition 的依赖关系可以不是 1 对 1，如上图既有 1 对 1 关系，也有多对多的关系。

了解了 Job 的逻辑执行图后，写程序时候会在脑中形成类似上面的数据依赖图。然而，实际生成的 RDD 个数往往比我们

想想的个数多。

要解决逻辑执行图生成问题，实际需要解决：

如何产生 RDD，应该产生哪些 RDD？

如何建立 RDD 之间的依赖关系？

解决这个问题的初步想法是让每一个 transformation() 方法返回（new）一个 RDD。事实也基本如此，只是某些

transformation() 比较复杂，会包含多个子 transformation()，因而会生成多个 RDD。这就是

实际

RDD

个数比我们想象的多

一些

的原因。

如何计算每个 RDD 中的数据？逻辑执行图实际上是 computing chain，那么 transformation() 的计算逻辑在哪里被

perform？每个 RDD 里有 compute() 方法，负责接收来自上一个 RDD 或者数据源的 input records，perfrom

transformation() 的计算逻辑，然后输出 records。

产生哪些 RDD 与 transformation() 的计算逻辑有关，下面讨论一些典型的 transformation() 及其创建的 RDD。官网上已经

解释了每个 transformation 的含义。iterator(split) 的意思是 foreach record in the partition。这里空了很多，是因为那些

transformation() 较为复杂，会产生多个 RDD，具体会在下一节图示出来。

Job 逻辑执行图

General logical plan

逻辑执行图的生成

1. 如何产生 RDD，应该产生哪些 RDD？

Transformation Generated RDDs Compute()

map(func)

MappedRDD iterator(split).map(f)

filter(func)

FilteredRDD iterator(split).filter(f)

flatMap(func)

FlatMappedRDD iterator(split).flatMap(f)

mapPartitions(func)

MapPartitionsRDD f(iterator(split))

mapPartitionsWithIndex(func)

MapPartitionsRDD f(split.index, iterator(split))

sample(withReplacement,

fraction, seed)

PartitionwiseSampledRDD

PoissonSampler.sample(iterator(split))

BernoulliSampler.sample(iterator(split))

pipe(command, [envVars])

PipedRDD

union(otherDataset)

intersection(otherDataset)

distinct([numTasks]))

groupByKey([numTasks])

reduceByKey(func,

[numTasks])

sortByKey([ascending],

[numTasks])

join(otherDataset, [numTasks])

cogroup(otherDataset,

[numTasks])

cartesian(otherDataset)

coalesce(numPartitions)

repartition(numPartitions)

RDD 之间的数据依赖问题实际包括三部分：

RDD 本身的依赖关系。要生成的 RDD（以后用 RDD x 表示）是依赖一个 parent RDD，还是多个 parent RDDs？

RDD x 中会有多少个 partition ？

RDD x 与其 parent RDDs 中 partition 之间是什么依赖关系？是依赖 parent RDD 中一个还是多个 partition？

第一个问题可以很自然的解决，比如x=rdda.transformation(rddb) (e.g., x = a.join(b)) 就表示 RDD x 同时依赖于 RDD a

和 RDD b。

第二个问题中的 partition 个数一般由用户指定，不指定的话一般取max(numPartitions[parentRDD1],..,

numPartitions[parentRDDn])。

第三个问题比较复杂。需要考虑这个 transformation() 的语义，不同的 transformation() 的依赖关系不同。比如 map() 是

1:1，而 groupByKey() 逻辑执行图中的 ShuffledRDD 中的每个 partition 依赖于 parent RDD 中所有的 partition，还有更复

杂的情况。

再次考虑第三个问题，RDD x 中每个 partition 可以依赖于 parent RDD 中一个或者多个 partition。而且这个依赖可以是完

全依赖或者部分依赖。部分依赖指的是 parent RDD 中某 partition 中一部分数据与 RDD x 中的一个 parttion 相关，另一部

分数据与 RDD x 中的另一个 partition 相关。下图展示了完全依赖和部分依赖。

2. 如何建立 RDD 之间的联系？

前三个是完全依赖，RDD x 中的 partition 与 parent RDD 中的 partition/partitions 完全相关。最后一个是部分依赖，RDD

x 中的 partition 只与 parent RDD 中的 partition 一部分数据相关，另一部分数据与 RDD x 中的其他 partition 相关。

在 Spark 中，完全依赖被称为 NarrowDependency，部分依赖被称为 ShuffleDependency。其实 ShuffleDependency 跟

MapReduce 中 shuffle 的数据依赖相同（mapper 将其 output 进行 partition，然后每个 reducer 会将所有 mapper 输出中

属于自己的 partition 通过 HTTP fetch 得到）。

第一种 1:1 的情况被称为 OneToOneDependency。

第二种 N:1 的情况被称为 N:1 NarrowDependency。

第三种 N:N 的情况被称为 N:N NarrowDependency。不属于前两种情况的完全依赖都属于这个类别。

第四种被称为 ShuffleDependency。

对于 NarrowDependency，具体 RDD x 中的 partitoin i 依赖 parrent RDD 中一个 partition 还是多个 partitions，是由 RDD

x 中的 getParents(partitioni) 决定（下图中某些例子会详细介绍）。还有一种 RangeDependency 的完全依赖，不过

该依赖目前只在 UnionRDD 中使用，下面会介绍。

所以，总结下来 partition 之间的依赖关系如下：

NarrowDependency (使用黑色实线或黑色虚线箭头表示)

OneToOneDependency (1:1)

NarrowDependency (N:1)

NarrowDependency (N:N)

RangeDependency (只在 UnionRDD 中使用)

ShuffleDependency (使用红色箭头表示)

之所以要划分 NarrowDependency 和 ShuffleDependency 是为了生成物理执行图，下一章会具体介绍。

需要注意的是第三种 NarrowDependency (N:N) 很少在两个 RDD 之间出现。因为如果 parent RDD 中的 partition 同

时被 child RDD 中多个 partitions 依赖，那么最后生成的依赖图往往与 ShuffleDependency 一样。只是对于 parent

RDD 中的 partition 来说一个是完全依赖，一个是部分依赖，而箭头数没有少。所以 Spark 定义的 NarrowDepedency

其实是 “each partition of the parent RDD is used by at most one partition of the child RDD“，也就是只有

OneToOneDependency (1:1) 和 NarrowDependency (N:1) 两种情况。但是，自己设计的奇葩 RDD 确实可以呈现出

NarrowDependency (N:N) 的情况。这里描述的比较乱，其实看懂下面的几个典型的 RDD 依赖即可。

如何计算得到 RDD x 中的数据（records）？下图展示了 OneToOneDependency 的数据依赖，虽然 partition 和 partition

之间是 1:1，但不代表计算 records 的时候也是读一个 record 计算一个 record。下图右边上下两个 pattern 之间的差别类

似于下面两个程序的差别：

code1 of iter.f()

int[]array={1,2,3,4,5}

for(inti=0;i<array.length;i++)

f(array[i])

code2 of f(iter)

int[]array={1,2,3,4,5}

f(array)

1) union(otherRDD)

union() 将两个 RDD 简单合并在一起，不改变 partition 里面的数据。RangeDependency 实际上也是 1:1，只是为了访问

union() 后的 RDD 中的 partition 方便，保留了原始 RDD 的 range 边界。

2) groupByKey(numPartitions)

3. 给出一些典型的 transformation() 的计算过程及数据依赖图

评论收藏

内容反馈

weizn11

粉丝: 4
资源: 29

七个PDF理解Spark

七个pdf理解spark系列_3-JobPhysicalPlan

七个pdf理解spark系列_7-Broadcast

七个pdf理解spark系列_5-Architecture

七个pdf理解spark系列_6-CacheAndCheckpoint

七个pdf理解spark系列_4-shuffleDetails

深入理解Spark+核心思想与源码分析.pdf

深入理解Spark：核心思想及源码分析.pdf

深入理解Spark 核心思想与源码分析

深入理解spark: 核心思想与源码分析pdf

深入理解Spark 核心思想与源码分析.pdf

《深入理解Spark 核心思想与源码分析》耿嘉安 完整版带书签

spark3.0入门到精通

Apache Spark的设计与实现 PDF中文版

深入理解Spark调度系统之调度器调度算法(FIFO_FAIR源码).pdf

图解Spark++核心技术与案例实战

Spark_NLP_Natural_Language_Understanding_at_Scale.pdf

Scala-升级版.docx

基于spark的图书推荐系统

大数据期末课设~基于spark的气象数据处理与分析

全国职业技能大赛大数据赛项十套赛题（shtd）

大数据全套教程完整版

全国2014-2018年空气质量csv数据集文件数据

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

Spark气象监测数据分析：代码整合，包括预处理，分析，数据可视化

基于hadoop和echarts的教育大数据可视化系统

RDD编程初级实践-答案-实验报告-纠正版

python爬虫爬取股票评论，调用百度AI进行语义分析， matlab数据处理，股票涨跌和评论的关系

大数据面试大总结300页.zip

最新资源

《深入理解Spark 核心思想与源码分析》耿嘉安完整版带书签