《Mastering Apache Spark》是Packt Publishing在2015年出版的一本专门介绍Apache Spark的图书,作者是Mike Frampton。该书旨在教授读者如何利用Apache Spark进行高效的数据处理与存储,并掌握一系列先进的技术。 本书首先介绍了大数据的概念,指出大数据不仅指的是每天在全世界收集的以太、拍它、艾克萨、泽塔和奥塔字节的数据量,更强调了在一个体面且受尊敬的大数据生态系统中,复杂性和所用组件数量的日益增长。作者强调了了解当前术语、新 buzzwords 和不断涌现的炒作的挑战性,并指出即使掌握了它们,人们也可能发现其中一半已经过时且效率低下。 《Mastering Apache Spark》一书也提到了关于书籍内容的版权声明,任何部分未经出版社事先书面许可,都不得复制、存储于检索系统、或以任何形式或手段传输。尽管出版方已经尽可能确保本书信息的准确性,但书中信息不附带任何明示或暗示的保证。作者、Packt Publishing、经销商和分销商都不会为因本书直接或间接引起的任何损害负责。 书中对提到的公司和产品的商标信息通过适当的大写来标识,尽管如此,Packt Publishing无法保证这一信息的准确性。 该书的版式和排版信息由一系列工作人员协同完成,包括项目协调员、校对、索引编排员、图形设计师、生产协调员和作者等。此外,书籍内容也经过了多位审阅者的审查,以保证内容的专业性和准确性。 本书还讨论了Apache Spark在处理大规模数据集时的核心优势,即其能力在于对实时数据流进行快速处理和分析。它支持多种处理引擎,包括批处理、交互式查询、流处理和机器学习。通过这些处理引擎,Spark可以有效地执行多阶段和交互式数据挖掘任务。 关于学习Spark的进阶技巧,书里可能会涵盖如何使用Spark SQL来处理和分析结构化数据,以及如何使用Spark Streaming处理实时数据流。同时,对于需要使用机器学习算法处理大数据的用户,书中可能会介绍Spark MLlib——一个用于机器学习的库。 考虑到书的内容可能是通过OCR扫描得到,某些文字可能识别有误,因此在理解相关技术内容时,我们需要确保信息的通顺和准确性。尽管OCR技术在处理文本图像化数据方面已相当成熟,但仍需人工校对来确保没有遗漏和误读。 为了深入学习Apache Spark,读者可能需要具备一些基础的编程知识和对分布式系统有一定的理解。而且,由于大数据领域技术更新迭代速度较快,因此对学习者来说,持续关注新技术和工具的发展,以及掌握如何在实际应用中运用所学知识,也是十分重要的。 总体来说,《Mastering Apache Spark》被视为进入Apache Spark学习领域的一个重要参考资源,尤其是在掌握高级技巧方面,它为想要成为大数据领域的专家提供了宝贵的知识和实践指导。
剩余317页未读,继续阅读
- StevenCoder2018-04-14非常好的书!
- 粉丝: 762
- 资源: 6231
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于.NETCore的仓库管理系统.zip
- (源码)基于SpringBoot和Vue的分布式配置管理系统.zip
- 地下水动力学真题,有需要的自行下载,考研真题
- (源码)基于JavaServlet的河北重大需求分析系统.zip
- (源码)基于Arduino的智能停车系统.zip
- 9a0f3e58cbb2b13855df377b794dc336.jpg
- (源码)基于SpringBoot和Vue的停车场管理系统.zip
- 中国地质大学(武汉)地理信息系统(GIS)考试试题整理.doc
- (源码)基于Redis的内存数据库管理系统.zip
- C#.NET酒店宾馆客房管理系统源码数据库 SQL2008源码类型 WinForm