没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据sparkspark：Executor分配详解

spark：Executor分配详解

spark

需积分: 37 18 下载量 135 浏览量 2018-08-01 14:50:03 上传评论 2 收藏 580KB DOCX 举报

温馨提示

试读

14页

用户应用new SparkContext后，集群就会为在Worker上分配executor,但是增加executor的时候需要考虑好内存消耗，因为一台机器的内存分配给越多的executor，每个executor的内存就越小，以致出现过多的数据spill over甚至out of memory的情况。CPU的core数量，每个executor可以占用一个或多个core，可以通过观察CPU的使用率变化来了解计算资源的使用情况，如此根据CPU的使用情况来分配executor数量，没有固定分配数量模式。

资源详情

资源评论

Spark 技术内幕：Executor 分配详解

Spark Master、Worker、Driver、Executor 工作流程详解

1、Spark 的部署图：

在基于 standalone 的 Spark 集群，Cluster Manger 就是 Master。

Master 负责分配资源，在集群启动时，Driver 向 Master 申请资源，Worker 负责监控自己节点的内存和 CPU 等状况，并向

Master 汇报。

从资源方面，可以分为两个层面：

1）资源的管理和分配

资源的管理和分配，由 Master 和 Worker 来完成。Master 给 Worker 分配资源，

Master 时刻知道 Worker 的资源状况。

客户端向服务器提交作业，实际是提交给 Master。

2）资源的使用

资源的使用，由 Driver 和 Executor。程序运行时候，向 Master 请求资源。

2、Spark 运行示意图：

2.1 图

一个 Worker 默认情况下分配一个 Executor，配置时根据需要也可以配置多个 Executor。一个节点，如果配置了多个

Executor，那么就会涉及到性能调优。

Driver、Master、Worker、Executor，其实它就是 JVM 进程。

图上 Worker 区域用◇形状表示的是：Worker 上有 Executor 的句柄，也就是说 Worker 能开对 Executor 进行控制，必要

时可以 Kill 掉该进程。

从图中可以看到 Driver 和 Executor 之间画了一根线条，表明：程序运行时是直接与 Executor 进行交互的。

我们对图 2.1 进行修改，增加 Spark 事件流，得到下图 2.2：

2.2 图

在 Driver 中，RDD 首先交给 DAGSchedule 进行 Stage 的划分。

然后底层的调度器 TaskScheduler 就与 Executor 进行交互。

Driver 和上图中 4 个 Worker 节点的 Executor 发指令，让它们在各自的线程池中运行 Job。

运行时 Driver 能获得 Executor 的具体运行资源，这样 Driver 与 Executor 之间进行通信，通过网络的方式，Driver 把划分

好的 Task 传送给 Executor，Task 就是我们的 Spark 程序的业务逻辑代码。

Executor 接收任务，进行反序列化，得到数据的输入和输出，在分布式集群的相同数据分片上，数据的业务逻辑一样，只是

数据不一样罢了，然后由 Executor 的线程池负责执行。

编程的 Spark 程序，打包提交到 Driver 端，这样就构成了一个 Driver，

Driver 内部的调度流程，根据算子逻辑的依赖关系，DAGScheduler 来划分成不同的 Stage，每个 Stage 中的计算逻辑是一

样的，只是数据分片不一样。TaskScheduler 向 Executor 发送任务，Executor 反序列化数据之后，也就得到数据的输入和

输出，也就是任务的业务逻辑，Executor 运行的就是我们的业务逻辑代码。

我们整个 Spark 应用程序，可以分成：Driver 和 Executor 两部分。

Driver 由框架直接生成；

Executor 执行的才是我们的业务逻辑代码。

执行的时候，框架控制我们代码的执行。Executor 需要执行的结果汇报给框架也就是 Driver。

3、数据的管理

在 Spark 应用具体执行过程中，会涉及到数据的读取和存储。

在 Executor 中关于数据的管理正是 Spark 的精髓之一。

默认情况下，数据要写到磁盘上。

DAGScheduler 划分了多个 Stage，下一个 Stage 会向 Driver 请求上一个 Stage 的运行结果。这就是 Shu(e 的过程，依

赖于上一个 Stage 全部的结果。前面 Stage 的输出是后面 Stage 的输入。

3.1 图

剩余13页未读，继续阅读

评论收藏

内容反馈

spark：Executor分配详解

评论0

最新资源

spark：Executor分配详解

评论0

最新资源

相关推荐

Executor框架使用详解

Java并发框架:Executor API详解

java并发编程：Executor、Executors、ExecutorService.docx

Java基础篇：Executor框架.pdf

mesos-spark:在 mesos 集群上运行 spark 作业

Redis 中spark参数executor-cores引起的异常解决办法

Spark 3.0.0 Application 提交集群原理和源码详解

java8看不到源码-mlsql-ps-service:Executor启动时启动服务的库

Spark 3.0.0集群启动原理和源码详解

笔记20230425关于spark-sql

opencpu-spark-executor:Apache Spark OpenCPU执行器（ROSE）

lambda-spark-executor:Apache Spark AWS Lambda执行器（SAMBA）

20 其实不用造轮子—Executor框架详解.pdf

async-executor:异步执行器

Python库 | executor-7.1.1.tar.gz

Spark Streaming 流式处理整合Kafka.rar

My-Docker-Spark:我的码头工人火花

Spark动态资源分配-DynamicResourceAllocation

PyPI 官网下载 | executor-21.0.tar.gz

Scala-升级版.docx

基于spark的图书推荐系统

毕业设计 基于Spark的Kmeans聚类算法优化源码+详细文档+全部数据资料 高分项目.zip

大数据期末课设~基于spark的气象数据处理与分析

全国职业技能大赛大数据赛项十套赛题（shtd）

全国2014-2018年空气质量csv数据集文件数据

大数据全套教程完整版

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

基于hadoop和echarts的教育大数据可视化系统

数据分析-基于Spark实现对全国历史气象数据进行分析.zip

毕业设计基于Spark的Kmeans聚类算法优化源码+详细文档+全部数据资料高分项目.zip