Spark调优 直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个partition中进行处理,任务的并发度也收到了限制。使用broadcast将会把小表分发到每台执行节点上,因此,关联操作都在本地完成,基本就取消了shuffle的过程,运行效率大幅度提高,进行了broadcast,可以看到连shuffle过程都省略了。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~