Spark for Data Science spark2.0
Apache Spark是大数据生态中最具人气的项目之一,也可能是大数据领域中最为活跃的开源项目。它的简洁性、性能以及灵活性使其不仅受到了数据科学家们的青睐,同样也吸引了工程师、开发者以及其他对大数据感兴趣的群体。 随着Apache Spark的日益普及,Duvvuri和Bikram出版了《Spark for Data Science》,这本书正是市场迫切需要的,但又有所不同。他们不仅涵盖了Spark计算平台的内容,还深入探讨了最新版本Spark 2.0的机器学习世界。书中涉及的技术点包括但不限于: 1. Spark 2.0基础:读者将学习到Spark的核心概念,包括其分布式数据处理模型,以及RDD(弹性分布式数据集)的概念。同时,还会有对Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX的介绍,这些都是构建在Spark核心之上的高级工具。 2. 数据科学与机器学习:书中的内容会深入数据科学的各个方面,着重于利用Spark MLlib进行机器学习,探索如分类、回归、聚类、协同过滤等算法。对于数据科学家而言,了解如何使用Spark对大数据集进行有效的机器学习模型构建和训练是至关重要的。 3. 大数据处理:对于处理大规模数据集,Spark是许多公司的首选。作者将指导读者如何利用Spark进行大规模数据处理,包括数据清洗、数据转换和数据聚合等操作。 4. 实战案例研究:除了理论知识,书中还会包含实战案例研究,通过真实的数据科学项目展示如何应用Spark进行数据分析和机器学习。这些案例将帮助读者更好地理解如何在实际工作中应用所学的知识。 在撰写本书时,作者们投入了大量的努力以确保信息的准确性。然而,书中的信息是出售时不带任何明示或暗示的保证的。出版社和作者不承担任何直接或间接因本书造成的损害或声称的损害的责任。 《Spark for Data Science》这本书适合那些希望利用最新版本的Spark来分析数据和深入机器学习世界的读者。无论你是数据科学家,还是工程师,亦或是对大数据感兴趣的开发者,这本书都能为你提供有用的信息和知识。 由于文档内容通过OCR扫描得到,技术原因可能造成部分文字的识别错误或漏识别,所以应保证通读上下文理解作者意图。另外,这本书是2016年由Packt Publishing出版的,这期间Apache Spark和大数据领域可能有了新的发展,读者在参考本书内容时应当结合最新的技术动态和发展趋势。
剩余338页未读,继续阅读
- 粉丝: 627
- 资源: 381
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助