下载  >  大数据  >  算法与数据结构  > PySpark實戰指南:利用Python和Spark構建數據密集型應用並規模化部署

PySpark實戰指南:利用Python和Spark構建數據密集型應用並規模化部署 评分:

本文從Spark的基本特點出發,借助大量例子詳細介紹了如何使用Python調用Spark新特性、處理結構化及非結構化數據、使用PySpark中基本可用數據類型、生成機器學習模型、進行圖像操作以及閱讀串流數據等新興技術內容。
华章|T HZB0OKS Information Technology 7mm3hm2:w译者序 为什么要翻译这本书 年初的时候我们从机械工业出版社华章公司那里知道有一本关于大数据的书正在征集翻 译,在看过英文版并翻译了样章后,我们几位志同道合的软件工程师一块儿接受了《 Learning PySpark》的翻译工作。我们都非常兴奋,因为作为软件工程师,能有机会把当前最热最新的 技术介绍给大家是何其荣幸。 Python是数据分析最常用的语言之一,而 Apache Spark是一个开源的强大的分布式查询 和处理引擎。本书用详尽的例子介绍了如何使用 Python来调用spak的新特性,如何处理结 构化和非结构化的数据,如何使用 PySpark中一些基本的可用数据类型,如何生成机器学习 模型、操作图像、阅读串流数据以及在云上部署你的模型。 数据是每个人身边都存在的,理解学习比较容易,但是数据量足够大才是一个相对准确 的学习平台。在实践中,如何确定训练集合、如何将脏数据处理为清洁数据、如何填充数据 等等,需要结合本书的知识理论,清楚了解待处理的大数据特性。每一种数据的特征或特性 都不一致,所以前期的准备和调研必不可少。本书不仅仅是一本工具书,也是一本能深入浅 出、结合简单实例来介绍 PySpark语言的书。不管使用什么语言和工具,万变不离其宗。希 望阅读此书的人,除了看懂示例,还能够结合实际经验来推敲,这样就能明白作者举这些例 子的良苦用心。 希望大家喜欢这本书,因为译者的水平有限,翻译中的错漏缺点在所难免,希望读者批 评指正。 读者对象 本书适合以下几类读者阅读: 口对大数据的前沿技术非常感兴趣的人。 口有志于成为一名数据科学家的从业人员。 口有一定算法和编程基础的技术爱好者。 译者分工 本书由来自IBM中国开发中心的软件工程师联合翻译完成。其中: 口栾云杰(目前就职于IBM中国开发中心)翻译了第5章、第6章。 口陈瑶(原IBM工程师,现就职于某大数据公司)翻译了第2章、第3章、第4章、第 11章。 口刘旭斌(目前就职于BM中国开发中心)翻译了第7章、第8章、第9章。 另外,第1章由栾云杰、陈瑶、刘旭斌三人共同翻译,第10章由栾云杰、陈瑶两人共同 翻译。 致谢 感谢华章公司引进了该书的中译本版权,这是该中译本得以面市的最核心要素。 感谢华章公司的和静老师给予我们的支持和信任。因为这份信任,我们才有机会来翻译 这本关于大数据和 Apache Spark的书籍。 感谢本次翻译组的小伙伴们。翻译本书的过程,是一种学习与思考的结合,也是和伙伴 合作与交流的经历。非常庆幸遇到了睿智又勤奋的伙伴,即使在繁忙的工作和节奏极快的生 活中,也努力完成了翻译和审阅计划。 另外,也要感谢我们的家人对我们的支持,正是有他们的支持和鼓励,我们才能坚持 下来。 creep 序 感谢你选择这本书开始 PySpark之旅,希望你像我一样兴奋。当 Denny Lee第一次告诉我 这本新书的时候,我非常高兴。 Apache Spark既支持Java、 Scala、JVM世界,又支持 Python (以及近来的R)世界,这是它成为一个如此非凡的平台最为重要的原因。以前很多书籍都集 中于核心语言,或者主要关注在JVM语言上,所以很高兴看到由如此有经验的Spak教育工 作者来专门为 PySpark出书,使 PySpark有机会绽放光芒。 PySpark通过支持这两个不同的世 界,使我们能够成为更高效的数据科学家和数据工程师,同时得以借鉴彼此社区的那些绝佳 想法。 很荣幸有机会浏览这本书的早期版本,这使我对该项目的兴趣更为浓厚。我曾有幸参加 过一些类似的会议和聚会,看着作者将 Spark世界的新概念介绍给不同的观众(从新人到经验 丰富的老手),并且他们提取自身的经验写出这本书,他们真是太棒了。从阐述知识到各个主 题的覆盖,无一不体现了作者们的丰富经验。除了简单介绍 PySpark之外,他们还花时间从 社区中找来了日渐重要的包,如 Graph Frames和 TensorFramess 在决定使用哪些工具时,我觉得社区是经常被忽视的一部分, Python拥有一个很棒的社 区,我期待着你加人 Python Spark社区。所以,来享受你的冒险之旅吧;我知道你会和Deny Lee以及 Tomek Draba有很好的联系。我真的相信,通过拥有多样化的 Spark用户社区,我 们将能够创造出对每个人都有用的更好的工具,所以我希望能够在某个会议、聚会或邮件列 表中见到你! Holden Karau 前言cvc 据估计,2013年全世界产生了大约44ZB(词头Z代表102)信息量的数据!而到2020年, 预计人类将会产生10倍于2013年的数据量。随着字面上的数字越来越大,加上人们需求的日益 增长,为了使这些数据更有意义,2004年来自 Google的 Jeffrey Dean和 Sanjay Ghemawat发表了 篇开创性的论文《 MapReduce: Simplified Data Processing on Large Clusters》。至此,利用这一概 念的技术开始快速增多, Apache Hadoop也开始迅速变得流行起来,最终创建了一个 Hadoop的 生态系统,包括抽象层的Pg、Hive和 Mahout,都是利用了map和 reduce的简单概念。 然而,即使拥有每天都分析过滤海量数据的能力, MapReduce始终是一个限制相当严 格的编程框架。此外,大多数的任务还要求读取、写入磁盘。认识到这些缺点,2009年 Matei zaharia将 Spark作为他博士课题的一部分开始研究。 Spark在2012年首次发布。虽然 Spark是基于和 MapReduce相同的概念,但其先进的数据处理方法和任务组织方式使得它比 Hadoop要快100倍(对于内存计算)。 在这本书中,我们将指导你使用 Python了解 Apache Spark的最新性能,包括如何看懂结 构化和非结构化的数据,如何使用 PySpark中一些基本的可用数据类型,生成机器学习模型 图像操作,阅读串流数据,在云上部署模型。每一章力求解决不同的问题,并且我们也希望 看完这本书之后,你可以掌握足够的知识来解决其他我们还没来得及在书中讲解的问题。 本书的主要内容 第1章通过技术和作业的组织等概念提供了对 Spark的介绍。 第2章介绍了RDD、基本原理、 PySpark中可用的非模式化数据结构。 第3章详细介绍了 Dataframe数据结构,它可以弥合 Scala和 Python之间在效率方面的 差距。 第4章引导读者了解 Spark环境中的数据清理和转换的过程。 第5章介绍了适用于RDD的机器学习库,并回顾了最有用的机器学习模型。 第6章涵盖了当前主流的机器学习库,并且提供了目前可用的所有模型的概述。 第7章引导你了解能轻松利用图解决问题的新结构。 第8章介绍了Spak和张量流( Tensor Flow)领域中深度学习( Deep Learning)的连接桥梁。 第9章描述 Blaze是如何跟 Spark搭配使用以更容易地对多源数据进行抽象化的。 第10章介绍了 PySpark中可用的流工具。 第11章一步步地指导你运用命令行界面完成代码模块化并提交到 Spark执行。 其他一些详细信息,我们提供了以下额外的章节: 34Sparkhttps://www.packtpub.com/sites/default/files/downloads/installingspark.pdfo 免费提供SparkCloud:hts/www.packtpub.com/sites/default/files/downloads/FreeSparkCloud Offering. pdf 本书需要的软/硬件支持 阅读本书,需要准备一台个人电脑( Windows、Mac或者 Linux任一系统都行)。运行 Apache Spark,需要Java7+并且安装配置 Python26+版本或者34+版本的环境;本书中使 用的是AnacondaPython35版本,可以在https://www.continuum.io/downloads下载。 本书中我们随意使用了 Anaconda的预装版 Python模块。( raphFrames和 TensorFrames也 可以在启动 Spark实例时动态加载:载入时你的电脑需要联网。如果有的模块尚未安装到你的 电脑里,也没有关系,我们会指导你完成安装过程。 本书的读者对象 想要学习大数据领域发展最迅速的技术即 Apache Spark的每一个人,都可以阅读此书。 我们甚至希望还有来自于数据科学领域更高级的从业人员,能够找到一些令人耳目一新的例 子以及更有趣的主题。 本书约定 警告或重要的笔记 VIll 提示和技巧 下载代码示例 你可以从hp:/ww. packtpub con下载代码文件。你也可以访问华章图书官网:htp www.hzbook.com,通过注册并登录个人账号,下载本书的源代码。 下载本书彩图 我们还提供了一个PDF文件,其中包含本书中使用的截图和彩图,可以帮助读者更好地 了解输出的变化。您可以从此下载文件htps:/www.packtpub.com/sites/default/files/downloads/ Learning Py Spark ColorImages. pdf mcwM关于作者 托马兹·卓巴斯( Tomasz draba)工作于微软,是一名数据科学家,现居住在西雅图地 区。他拥有超过13年的数据分析和数据科学经验:在欧洲、澳大利亚和北美洲三大洲期间, 工作领域遍及先进技术、航空、电信、金融和咨询。在澳大利亚期间,托马兹一直致力于运 筹学博士学位,重点是航空业中的选择建模和收入管理应用。 在微软,托马兹每天都和大数据打交道,解决机器学习问题,如异常检测、流失预测和 使用 Spark的模式识别。 托马兹还撰写了《 Practical Data Analysis Cookbook》,该书由 Packt Publishing于2016年 出版。 我要感谢我的家人 Rachel、Skye和 Albert,你们是我生命中的挚爱,我很珍惜与你们度 过的每一天!谢谢你们永远站在我身边,鼓励我一步步接近我的职业目标。另外,感谢所有 的亲人们。 多年来,还有很多人影响了我,我得再写一本书来感谢他们。你们知道,我从心底谢谢 你们! 不过,如果不是 Czesia wieruszewska,我不会得到博士学位。还有 Krzys Krzysztoszek, 你一直相信我!谢谢! 丹尼·李( Denny Lee)是微软 Azure documentDB团队的首席项目经理,该团队致力于为 微软发展高效性、重量级的托管文档存储服务。他是一名喜欢实践的分布式系统和数据科学 工程师,拥有超过18年的互联网级别基础架构、数据平台和预测分析系统的开发经验,这些 经验可用于内部部署和云环境。 他在组建新团队以及促进转型、改革方面拥有丰富的经验。在加入 Azure documentS

...展开详情
2018-10-05 上传 大小:24.74MB
举报 收藏
分享

评论 下载该资源后可以进行评论 共2条

liang200543 非常好的资源,找了很久。
2018-12-06
回复
starstars 资源和好,字迹很清晰;但是这本书的质量一般般。
2018-11-29
回复
PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署.pdf

分布式系统搭建,全扫描版,清晰 本文从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。

立即下载
(完整书签)PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署.pdf

本文从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。 如积分不够,可移步博主博客

立即下载
PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署

PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署 学习与了解pyspark

立即下载
Learning PySpark.pdf

In this book, we will guide you through the latest incarnation of Apache Spark using Python. We will show you how to read structured and unstructured data, how to use some fundamental data types available in PySpark, build machine learning models, operate on graphs, read streaming data, and deploy y

立即下载
pyspark资源整理

最近在使用spark的过程中,发现自己对spark的包了解的不够,网上查也是这一点那一点的,所以自己整理的一张脑图,然后做了些实验,记录下来,上传到CSDN上需要的自取

立即下载
(完整书签)PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署.zip

本文从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。

立即下载
Learning PySpark 英文无水印高清完整.pdf版下载

Learning PySpark 英文无水印pdf pdf所有页面使用FoxitReader和PDF-XChangeViewer测试都可以打开 本资源转载自网络,如有侵权,请联系上传者或csdn删除

立即下载
Python Web 实战指南PDF

Python Web 实战指南Python Web 实战指南Python Web 实战指南Python Web 实战指南Python Web 实战指南Python Web 实战指南

立即下载
Spark 入门实战系列

Spark 入门实战系列,适合初学者,文档包括十部分内容,质量很好,为了感谢文档作者,也为了帮助更多的人入门,传播作者的心血,特此友情转贴: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--H

立即下载
TensorFlow机器学习实战指南.PDF

第1章介绍TensorFlow的基本概念,包括张量、变量和占位符;同时展示了在 TensorFlow中如何使用矩阵和各种数学操作。本章末尾讲述如何访问本书所需的数据 源。 第2章介绍如何在计算图中连接第1章中的所有算法组件,创建一个简单的分类 器。接着,介绍计算图、损失函数、反向传播和训练模型。 第3章重点讨论使用TensorFlow实现各种线性回归算法,比如,戴明回归、lasso回 归、岭回归、弹性网络回归和逻辑回归,也展示了如何在TensorFlow计算图中实现每 种回归算法。 第4章介绍支持向量机(SVM)算法,展示如何在TensorFlow中实现线性SVM算 法、非线性SVM算法和多分

立即下载
pyspark视频资源

pyspark视频,详细内容看我博客。。。。。。。。。。。。。。。。。。。。。。。

立即下载
Cacti实战指南(7个pdf文件)

Cacti实战指南,(1)Cacti实战指南-完美部署,(2)Cacti实战指南-插件安装,(3)Cacti实战指南-邮件预警,(4)Cacti实战指南-阀值预警,(5)Cacti实战指南-巧设轮询,(6)Cacti实战指南-用户权限,(7)Cacti实战指南--备份还原

立即下载