【免费】【Spark调优篇03】Spark之Shuffle调优1资源-CSDN文库

需积分: 0 24 浏览量 2022-08-04 15:27:45 上传评论收藏 354KB PDF 举报

资源推荐

资源详情

资源评论

思考学习的深度

Spark之Shuﬄe调优

调优一：调节map端缓冲区大小

在Spark任务运行过程中，如果shuﬄe的map端处理的数据量比较大，但是map端缓冲的大小是固定

的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map

端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。

map端缓冲的默认配置是32KB，如果每个task处理640KB的数据，那么会发生640/32 = 20次溢写，

如果每个task处理64000KB的数据，机会发生64000/32=2000此溢写，这对于性能的影响是非常严重

的。

map端缓冲的配置方法如代码



调优二：调节reduce端拉取数据缓冲区大小

Spark Shuﬄe过程中，shuﬄe reduce task的buﬀer缓冲区大小决定了reduce task每次能够缓冲的

数据量，也就是每次能够拉取的数据量，如果内存资源较为充足，适当增加拉取数据缓冲区的大小，可

以减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。

reduce端数据拉取缓冲区的大小可以通过spark.reducer.maxSizeInFlight参数进行设置，默认为

48MB，该参数的设置方法如代码



调优三：调节reduce端拉取数据重试次数

Spark Shuﬄe过程中，reduce task拉取属于自己的数据时，如果因为网络异常等原因导致失败会自

动进行重试。对于那些包含了特别耗时的shuﬄe操作的作业，建议增加重试最大次数（比如60次），

以避免由于JVM的full gc或者网络不稳定等因素导致的数据拉取失败。在实践中发现，对于针对超大数

据量（数十亿~上百亿）的shuﬄe过程，调节该参数可以大幅度提升稳定性。

reduce端拉取数据重试次数可以通过spark.shuﬄe.io.maxRetries参数进行设置，该参数就代表了可

以重试的最大次数。如果在指定次数之内拉取还是没有成功，就可能会导致作业执行失败，默认为3

reduce端拉取数据重试次数配置



val conf = new SparkConf()

.set("spark.shuffle.file.buffer", "64")

val conf = new SparkConf()

.set("spark.reducer.maxSizeInFlight", "96")

val conf = new SparkConf()

.set("spark.shuffle.io.maxRetries", "6")

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

内容反馈

士多霹雳酱

粉丝: 22
资源: 299

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip