Spark源码系列(六)Shuffle的过程解析

所需积分/C币:5 2021-03-03 20:23:13 204KB PDF
8
收藏 收藏
举报

Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。这篇文章主要是沿着下面几个问题来开展:shuffle过程的划分?shuffle的中间结果如何存储?shuffle的数据如何拉取过来?Spark的操作模型是基于RDD的,当调用RDD的reduceByKey、groupByKey等类似的操作的时候,就需要有shuffle了。再拿出reduceByKey这个来讲。reduceByKey的时候,我们可以手动设定reduce的个数,如果不指定的话,就可能不受控制了。1、如果自定义了分区函数par

...展开详情
试读 7P Spark源码系列(六)Shuffle的过程解析
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
Spark源码系列(六)Shuffle的过程解析 5积分/C币 立即下载
1/7
Spark源码系列(六)Shuffle的过程解析第1页
Spark源码系列(六)Shuffle的过程解析第2页

试读结束, 可继续读1页

5积分/C币 立即下载 >