Spark运行架构资源-CSDN文库

Spark运行架构

98 浏览量 2021-02-25 09:18:54 上传评论收藏 1.68MB PDF 举报

资源推荐

资源详情

资源评论

Spark运行架构运行架构

1、 Spark运行架构

1.1 术语定义

lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个

Driver 功能的代码和分布在集群中多个节点上运行的Executor代码；

lDriver：Spark中的Driver即运行上述Application的main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准

备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控

等；当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常用SparkContext代表Drive；

lExecutor：Application运行在Worker 节点上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上，每个

Application都有各自独立的一批Executor。在Spark on Yarn模式下，其进程名称为CoarseGrainedExecutorBackend，类似于

Hadoop MapReduce中的YarnChild。一个CoarseGrainedExecutorBackend进程有且仅有一个executor对象，它负责将Task

包装成taskRunner，并从线程池中抽取出一个空闲线程运行Task。每个CoarseGrainedExecutorBackend能并行运行Task的

数量就取决于分配给它的CPU的个数了；

lCluster Manager：指的是在集群上获取资源的外部服务，目前有：

Standalone：Spark原生的资源管理，由Master负责资源的分配；

Hadoop Yarn：由YARN中的ResourceManager负责资源的分配；

Worker：集群中任何可以运行Application代码的节点，类似于YARN中的NodeManager节点。在Standalone模式中指的就是

通过Slave文件配置的Worker节点，在Spark on Yarn模式中指的就是NodeManager节点；

作业（Job）：包含多个Task组成的并行计算，往往由Spark Action催生，一个JOB包含多个RDD及作用于相应RDD上的各种

Operation；

阶段（Stage）：每个Job会被拆分很多组Task，每组任务被称为Stage，也可称TaskSet，一个作业分为多个阶段；

任务（Task）：被送到某个Executor上的工作任务；

1.2 Spark运行基本流程

Spark运行基本流程参见下面示意图

1. 构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（可以是Standalone、Mesos或

YARN）注册并申请运行Executor资源；

2. 资源管理器分配Executor资源并启动StandaloneExecutorBackend，Executor运行情况将随着心跳发送到资源管理器上；

3. SparkContext构建成DAG图，将DAG图分解成Stage，并把Taskset发送给Task Scheduler。Executor向SparkContext申请

Task，Task Scheduler将Task发放给Executor运行同时SparkContext将应用程序代码发放给Executor。

4. Task在Executor上运行，运行完毕释放所有资源。

剩余13页未读，继续阅读

内容反馈

weixin_38606019

粉丝: 4
资源: 935

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip