双倍提升ApacheSpark排序性能

所需积分/C币:5 2021-02-26 15:58:25 326KB PDF
7
收藏 收藏
举报

Cloudera和英特尔公司的工程师们正在通力合作,旨在使Sparkshuffle阶段具有更高的可扩展性和稳定性。本文对相关方法的设计进行了详细描述。区别常见的Embarrassingly Parallel系统,类似MapReduce和Apache Spark(Apache Hadoop的下一代数据处理引擎)这样的计算引擎主要区别在于对“all-to-all” 操作的支持上。和许多分布式引擎一样,MapReduce和Spark的操作通常针对的是被分片数据集的子分片,很多操作每次只处理单个数据节点,同时这些操作所涉及到的数据往往都只存在于这个数据片内。all-to-all操作必须将数据集看作一个

...展开详情
试读 6P 双倍提升ApacheSpark排序性能
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
双倍提升ApacheSpark排序性能 5积分/C币 立即下载
1/6
双倍提升ApacheSpark排序性能第1页
双倍提升ApacheSpark排序性能第2页

试读结束, 可继续阅读

5积分/C币 立即下载 >