Spark:一个高效的分布式计算系统

所需积分/C币:5 2021-02-26 14:30:44 306KB PDF
8
收藏 收藏
举报

Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。其架构如下图所示:Spark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。Spark比Hadoop更通用。Spark提供的数

...展开详情
试读 8P Spark:一个高效的分布式计算系统
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
Spark:一个高效的分布式计算系统 5积分/C币 立即下载
1/8
Spark:一个高效的分布式计算系统第1页
Spark:一个高效的分布式计算系统第2页

试读结束, 可继续读1页

5积分/C币 立即下载 >