【免费】SparkShuffle优化-参数调优1_spark.driver.memoryOverhead怎么设置资源-CSDN文库

spark

需积分: 0 64 浏览量 2022-08-08 22:35:13 上传评论收藏 14KB DOCX 举报

资源详情

资源评论

属性名称

默认值

属性说明

spark.reducer.maxSizeInFlight

48m

reduce task 的 buffer 缓冲，代表了每个 reduce task 每

次能够拉取的 map side 数据最大大小，如果内存充足，

可以考虑加大，从而减少网络传输次数，提升性能

spark.shuffle.blockTransferService

netty

shuffle 过程中，传输数据的方式，两种选项，netty 或

nio，spark 1.2 开始，默认就是 netty，比较简单而且性

能较高，spark 1.5 开始 nio 就是过期的了，而且 spark

1.6 中会去除掉

spark.shuffle.compress

true

是否对 map side 输出的文件进行压缩，默认是启用压

缩的，压缩器是由 spark.io.compression.codec 属性指

定的，默认是 snappy 压缩器，该压缩器强调的是压缩

速度，而不是压缩率

spark.shuffle.consolidateFiles

false

默认为 false，如果设置为 true，那么就会合并 map side

输出文件，对于 reduce task 数量特别的情况下，可以

极大减少磁盘 IO 开销，提升性能

spark.shuffle.file.buffer

32k

map side task 的内存 buffer 大小，写数据到磁盘文件之

前，会先保存在缓冲中，如果内存充足，可以适当加

大，从而减少 map side 磁盘 IO 次数，提升性能

spark.shuffle.io.maxRetries

网络传输数据过程中，如果出现了网络 IO 异常，重试

拉取数据的次数，默认是 3 次，对于耗时的 shuffle 操

作，建议加大次数，以避免 full gc 或者网络不通常导

致的数据拉取失败，进而导致 task lost，增加 shuffle

操作的稳定性

spark.shuffle.io.retryWait

每次重试拉取数据的等待间隔，默认是 5s，建议加大

时长，理由同上，保证 shuffle 操作的稳定性

spark.shuffle.io.numConnectionsPerPeer

机器之间的可以重用的网络连接，主要用于在大型集

群中减小网络连接的建立开销，如果一个集群的机器

并不多，可以考虑增加这个值

spark.shuffle.io.preferDirectBufs

true

启用堆外内存，可以避免 shuffle 过程的频繁 gc，如果

堆外内存非常紧张，则可以考虑关闭这个选项

spark.shuffle.manager

sort

ShuffleManager ， Spark 1.5 以后，有三种可选的，

hash、sort 和 tungsten-sort，sort-based ShuffleManager

会更高效实用内存，并且避免产生大量的 map side 磁

盘文件，从 Spark 1.2 开始就是默认的选项，tungsten-

sort 与 sort 类似，但是内存性能更高

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

Spark Shuffle优化-参数调优1

评论0

最新资源

Spark Shuffle优化-参数调优1

评论0

最新资源

相关推荐

第08讲-Spark性能优化-资源调优.pptx

Spark性能优化：shuffle调优

【Spark调优篇03】Spark之Shuffle调优1

Spark性能优化：数据倾斜调优

spark-2.2.0-yarn-shuffle.jar

spark-network-shuffle_2.11-2.1.3-SNAPSHOT.jar

spark-1.6.1-yarn-shuffle.jar

spark-3.1.3-bin-without-hadoop.tgz

Spark调优 Spark应用程序性能优化

Apache Spark Shuffle I/O 在 Facebook 的优化

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

基于运行数据分析的Spark任务参数优化_陈侨安.pdf

JVM优化3(Tomcat参数调优,JVM参数调优,jvm字节码,代码优化).pdf

spark-2.0.0-bin-hadoop2.6.tgz

spark-3.1.3-bin-hadoop3.2.tgz

spark-3.0.0-bin-hadoop3.2

spark-2.3.4-bin-hadoop2.7.tgz

ChatGPT 模型的参数调优与内存优化技巧.docx

JVM优化3(Tomcat参数调优,JVM参数调优,jvm字节码,代码优化).zip

Hadoop企业优化常用的调优参数.docx

weblogic优化设置调优参数及监控指标.docx

weblogic优化设置调优参数及监控指标.doc

spark-3.2.0-bin-hadoop3.2.tgz

apache-doris-spark-connector-2.3_2.11-1.0.1

spark-assembly-1.5.2-hadoop2.6.0.jar

spark-streaming-kafka-0-8_2.11-2.4.0.jar