img
share 分享

Spark全栈数据分析

作者:(美)罗素·朱尼

出版社:电子工业出版社

ISBN:9787121351662

VIP会员免费 (仅需0.8元/天) ¥ 39.6

温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!

电子书推荐

更多资源 展开
热门图书

Spark原著中文版 评分:

过去的几年中,计算系统经历着重大的变革,为了满足不断增长的数据量和处理速度需求, 越来越多的应用向分布式系统扩展。如今,从互联网到企业运作,再到科技设备,不尽其数的 数据源都在产生大量的、有价值的数据流。然而,单一的机器处理能力并没有跟上数据增长的 速度,使得这些有价值的数据越来越难以被使用。以至于越来越多的组织——不仅仅是互联网 公司,还有一些传统企业和研究室——迫切需要将他们重要的计算能力扩展到成百上千台机器 上去。 在这同时,数据处理所需的速度和复杂性也在逐渐增加。在许多领域中,除了简单的查询, 像机器学习和图分析这样的复杂算法也得到日益广泛的应用。另外,除了批量处理,一些组织 还需要在实时数据源上进行流分析,以保证能够及时采取行动。未来的计算平台不仅需要能满 足常规作业的扩展,同时也需要对新的应用有更好的支持。 针对上述的各种问题,本文提出了一种集群计算架构,能够解决这些新出现的数据处理作业 的需求,同时还可以应对越来越大规模的扩展。虽然早期的集群计算系统,如 MapReduce,已经 能够进行批量处理,但我们的架构更支持流处理和交互查询,并且拥有和之前系统相同的可扩 展性和容错性。然而当前所部署的大部分的系统仅支持简单的单路运算(例如,聚合或SQL查询), 而我们的系统针更为复杂的分析(例如,机器学习的迭代算法)扩展到了对多路算法的支持。 最后,与处理特定工作的专有系统不同的是,我们的架构允许这些算法相互结合,从而实现更 丰富的新应用。例如,流处理和批量处理,或 SQL 和复杂分析之间的相互结合。 为了实现上述的各种特性,我们通过简单的扩展 MapReduce,为其增加了数据共享原语,也 就是所谓的弹性分布式数据集(RDDs)。我们发现,这样的扩展足以能够有效地覆盖大部分作业 的需求。在开源的 Spark 系统中我们实现了 RDDs,同时使用了模拟测试程序和真实的用户应用 对其进行评估。在许多应用领域中,Spark 已经接近或是超过了专有系统的性能,同时提供更强 大的容错保证,并允许这些作业之间能够进行结合。我们从理论建模和实践的角度去探索 RDDs 的通用性,来解释为什么这样的扩展可以覆盖大范围的不同作业需求。

...展开详情
上传时间:2018-11 大小:7.31MB
Spark使用指南(权威版)
spark权威指南(基于spark 2) pdf 高清带目录 英文
Spark权威指南(Spark2)
Spark全栈数据分析_敏捷数据科学2.0_原版
Spark原著中文版PDF
spark官方文档中文版
图灵书籍(Spark高级数据分析.pdf+Spark机器学习.pdf及源码)
Spark全栈数据分析》_王道远译
Hadoop权威指南第四版(中文+英文)+Spark高级数据分析
(完整书签)PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署.zip
深入理解Spark 核心思想与源码分析中文高清完整版PDF
电子书.rar《Spark SQL入门与实践指南》等
Spark高级数据分析.pdf
图灵程序设计丛书 Spark快速大数据分析 pdf
Spark 编程指南简体中文版.pdf
spark官方文档中文版.pdf
Spark权威指南中文版(1-14章)
Spark Definitive Guide-Spark权威指南中文版
Spark原著中文版-PDF高清版-带目录可跳转
2018 spark权威指南
Spark编程指南中文版
大数据Spark企业级实战版 高清完整版PDF