【免费】sparkshuffle原理_sparkrepartition一会发生shuffle么资源-CSDN文库

需积分: 0 196 浏览量 2023-04-21 13:14:00 上传评论收藏 825KB PDF 举报

资源推荐

资源详情

资源评论

“戏”说spark---spark Shuffle详解（一）

Shuffle简介

Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之

间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整

个程序的性能和吞吐量。因为在分布式情况下，reduce task需要跨节点去拉取其它节点上的map task

结果。这一过程将会产生网络资源消耗和内存，磁盘IO的消耗。通常shuffle分为两部分：Map阶段的

数据准备和Reduce阶段的数据拷贝处理。一般将在map端的Shuffle称之为Shuffle Write，在Reduce

端的Shuffle称之为Shuffle Read.

Apache Spark 的 Shuffle 过程与 Apache Hadoop 的 Shuffle 过程有着诸多类似，一些概念可直接

套用，例如，Shuffle 过程中，提供数据的一端，被称作 Map 端，Map 端每个生成数据的任务称为

Mapper，对应的，接收数据的一端，被称作 Reduce 端，Reduce 端每个拉取数据的任务称为

Reducer，Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将数据发送给对应

的 Reducer 的过程。

1）input, 根据split输入数据，运行map任务；

2）patition, 每个map task都有一个内存缓冲区，存储着map的输出结果；

3）spill, 当缓冲区快满的时候需要将缓冲区的数据以临时文件的方式存放到磁盘；

4）merge, 当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终

的正式输出文件，然后等待reduce task来拉数据。

reduce task在执行之前的工作就是不断地拉取当前job里每个map task的最终结果，然后对从不同地

方拉取过来的数据不断地做merge，也最终形成一个文件作为reduce task的输入文件。

Hadoop MapReduce Shuffle

map端的Shuffle简述:

reduce 端的Shuffle简述:

剩余11页未读，继续阅读

内容反馈

Ashley_JIANG

粉丝: 6
资源: 5

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip