spark大数据商业实战三部曲完整版

所需积分/C币:29 2019-04-15 19:27:35 219.83MB PDF

spark大数据商业实战三部曲完整版,绝对完整!包含后面的13章带目录,并且对每个目录做了准确的目标位置,其它网友上传的只要前18章,内容不全,为此,本人在阅读的过程中亲自整理了笔记,并做上了重点标记,方便读者阅读
内容简介 本书基于 Spark22X最新版本,以 Spark商业案例实战和 Spark在生产环境下几乎所有类型的性能调优 为核心,以 Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spak商业案例与性能调 优抽丝剥茧地进行剖析。上篇基于 Spark源码,从一个动手实战案例入手,循序渐进地全面解析了 Spark22x 新特性及 Spark内核源码;中篇选取 Spark开发中最具有代表的经典学习案例,深入浅出地介绍,在案例中 综合应用 Spark的大数据技术;下篇性能调优内容基本完全覆盖了Spak在生产环境下的所有调优技术。 本书适合所有 Spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员,本书也可以作为 park高手修炼的参考书籍。同时,本书也特别适合作为高等院校的大数据教材使用。 本书封面贴有清华大学出版社防伪标签,无标签者不得销售。 版权所有,侵权必究。侵权举报电话:010-6278298913701121933 图书在版编目(C|P)数据 Spark大数据商业实战三部曲:内核解密商业案例性能调优/王家林,段智华,夏阳编著.一北京:清 华大学出版社,2018 ISBN978-7-302-489627 I.①s…Ⅱ.①王…②段…③夏…Ⅲ①数据处理Ⅳ.①TP274 中国版本图书馆CIP数据核字(2017)第287681号 责任编辑:袁金敏常建丽 封面设计:刘新新 责任校对:徐俊伟 责任印制:沈露 出版发行:清华大学出版社 网址:htp:/www.tup.com.cn,htp:/www.wqbook.com 地址:北京清华大学学研大厦A座 编:100084 社总机:010-62770175 邮邮 购:010-62786544 投稿与读者服务:010-62776969,c-service@tup.tsinghua.edu.cn 质量反馈:010-627015,zhiliang@tup.tsinghua.edu.cn 印装者:三河市金元印装有限公司 经销:全国新华书店 开本:185mm×260mm 印张:72.75 字数:1815千字 版次:2018年2月第1版 印次:2018年2月第1次印刷 定价:29900元 产品编号:075671-01 前言 大数据像当年的石油、人工智能( Artificial Intelligence)像当年的电力一样,正以前所 未有的广度和深度影响所有的行业,现在及未来公司的核心壁垒是数据,核心竞争力来自基 于大数据的人工智能的竞争。 Spark是当今大数据领域最活跃、最热门、最高效的大数据通 用计算平台,2009年诞生于美国加州大学伯克利分校AMP实验室,2010年正式开源,2013 年成为 Apache基金项目,2014年成为 Apache基金的顶级项目。基于RDD, Spark成功构建 起了一体化、多元化的大数据处理体系。 在任何规模的数据计算中, Spark在性能和扩展性上都更具优势 (1) Hadoop之父 Doug Cutting指出: Use of MapReduce engine for Big Data projects wil decline, replaced by Apache Spark(大数据项目的 MapReduce引擎的使用将下降,由 Apache Spark取代。) (2) Hadoop商业发行版本的市场领导者 Cloudera、 Horton Works、MapR纷纷转投 Spark, 并把 Spark作为大数据解决方案的首选和核心计算引擎。 2014年的 Sort Benchmark测试中, Spark秒杀 Hadoop,在使用十分之一计算资源的情况 下,相同数据的排序上, Spark比 MapReduce快3倍!在没有官方PB排序对比的情况下, 首次将 Spark推到了PB数据(十万亿条记录)的排序,在使用190个节点的情况下,工作 负载在4小时内完成,同样远超雅虎之前使用3800台主机耗时16个小时的记录 2015年6月,Spak最大的集群来自腾讯—8000个节点,单个Job最大分别是阿里巴 巴和 Databricks-1PB,震撼人心!同时, Spark的 Contributor比2014年涨了3倍,达到 730人;总代码行数也比2014年涨了2倍多,达到40万行。BM于2015年6月承诺大力推 进 Apache Spark项目,并称该项目为:以数据为主导的,未来十年最重要的新的开源项目。 这一承诺的核心是将 Spark嵌入IBM业内领先的分析和商务平台,并将 Spark作为一项服务, 在 IBMBluemix平台上提供给客户。IBM还将投入超过3500名研究和开发人员在全球10余 个实验室开展与 Spark相关的项目,并将为 Spark开源生态系统无偿提供突破性的机器学习 技术— BM SystemML。同时,IBM还将培养超过100万名 Spark数据科学家和数据工 程师。 2016年,在有“计算界奥运会”之称的国际著名 Sort Benchmark全球数据排序大赛中, 由南京大学计算机科学与技术系PASA大数据实验室、阿里巴巴和 Databricks公司组成的参 赛团队 NADSort,以144美元的成本完成100TB标准数据集的排序处理,创下了每TB数据 排序144美元成本的最新世界纪录,比2014年夺得冠军的加州大学圣地亚哥分校 Triton Sort 团队每TB数据451美元的成本降低了近70%,而这次比赛依旧使用 Apache Spark大数据计 算平台,在大规模并行排序算法以及Spak系统底层进行了大量的优化,以尽可能提高排序 计算性能并降低存储资源开销,确保最终贏得比赛。 在 Full Stack理想的指引下, Spark中的 Spark SQL、 Spark Streaming、MLLb、 GraphX、 R五大子框架和库之间可以无缝地共享数据和操作,这不仅打造了 Spark在当今大数据计算 领域其他计算框架都无可匹敌的优势,而且使得 Spark正在加速成为大数据处理中心首选通 Spark大数据商业实战三部曲:内核解密商业案例性能调优 用计算平台,而 Spark商业案例和性能优化必将成为接下来的重中之重! 本书根据王家林老师亲授课程及结合众多大数据项目经验编写而成,其中王家林、段智 华编写了本书近90%的内容,具体编写章节如下: 第3章 Spark的灵魂:RDD和 Data Set 第4章 Spark Driver启动内幕剖析; 第5章 Spark集群启动原理和源码详解; 第6章 Spark Application提交给集群的原理和源码详解; 第7章 Shuffle原理和源码详解; 第8章Job工作原理和源码详解; 第9章 Spark中 Cache和 checkpoint原理和源码详解; 第10章 Spark中 Broadcast和 Accumulator原理和源码详解 第11章 Spark与大数据其他经典组件整合原理与实战; 第12章 Spark商业案例之大数据电影点评系统应用案例; 第13章 Spark2.2实战之 Dataset开发实战企业人员管理系统应用案例; 第14章 Spark商业案例之电商交互式分析系统应用案例; 第15章 Spark商业案例之NBA篮球运动员大数据分析系统应用案例 第16章电商广告点击大数据实时流处理系统案例; 第17章Spak在通信运营商生产环境中的应用案例 第18章使用 Spark GraphX实现婚恋社交网络多维度分析案例; 第23章 Spark集群中 Mapper端、 Reducer端内存调优; 第24章使用 Broadcast实现 Mapper端 Shuffle聚合功能的原理和调优实战; 第25章使用 Accumulator高效地实现分布式集群全局计数器的原理和调优案例; 第27章 Spark五大子框架调优最佳实践; 第28章 Spark2.2.0新一代钨丝计划优化引擎; 第30章Spaκk性能调优之数据倾斜调优一站式解决方案原理与实战 第31章 Spark大数据性能调优实战专业之路。 其中,段智华根据自身多年的大数据工作经验对本书的案例等部分进行了扩展。 除上述章节外,剩余内容由夏阳、郑采翎、闫恒伟三位作者根据王家林老师的大数据授 课内容而完成。 在阅读本书的过程中,如发现任何问题或有任何疑问,可以加入本书的阅读群(QQ 418110145)讨论,会有专人答疑。同时,该群也会提供本书所用案例源码及本书的配套学习 视频。 如果读者想要了解或者学习更多大数据相关技术,可以关注DT大数据梦工厂微信公众 号 DT Spark,也可以通过YY客户端登录68917580永久频道直接体验。 王家林老师的新浪微博是htp:/eibo. com/ilovepains/欢迎大家在微博上与作者进行 互动。 由于时间仓促,书中难免存在不妥之处,请读者谅解,并提出宝贵意见。 王家林2017年中秋之夜于美国硅谷 目录 上篇内核解密 第1章电光石火间体验 Spark22开发实战 2 1.1通过RDD实战电影点评系统入门及源码阅读…… 2 11.1 Spark核心概念图解 ……*…“ 2 1.1.2通过RDD实战电影点评系统案例…… 1.2通过 Data Frame和 DataSet实战电影点评系统… 1.2.1通过 Data Frame实战电影点评系统案例……………………………7 1.22通过 DataSet实战电影点评系统案例…………………………………10 1.3 Spark2,2源码阅读环境搭建及源码阅读体验… 11 第2章 Spark2.2技术及原理…… 14 2.1 Spark2.2综述…………………………………………14 2.1.1连续应用程序…………………………14 2.1.2新的API……………………………………………………………15 22Spak2.2Core……………………16 221第二代 Tungsten引擎 ………………………………………16 2.22 Spark Session………………………………………………………16 223累加器API 17 23 Spark22sQL………… 19 2.3.1 Spark SQL……………………………………………………20 2.32 Data Frame和 Dataset API……………………………………………20 2.3.3 Timed Window…………………………………21 2.4S park22 Streaming………………………………………………21 241 Structured Streaming…………………………2l 24.2增量输出模式……………………………………………23 2.5 Spark22 MLlib………………………………………………………27 251基于 Data Frame的 Machine Learning API……………………………28 2.52R的分布式算法………………………………………………………28 26 Spark2.2 GraphX………… …………29 第3章 Spark的灵魂:RDD和 Data Set ……………30 3.1为什么说RDD和 DataSet是 Spark的灵魂 …………………………………………30 3.1.1RDD的定义及五大特性剖析…………………………………30 Spark大数据商业实战三部曲:内核解密商业案例性能调优 3.12 DataSet的定义及内部机制剖析………………………34 3.2RDD弹性特性七个方面解析…………… ………36 3.3RDD依赖关系………………………………………………………………43 3.3.1窄依赖解析…… ……………………43 3.3.2宽依赖解析 45 34解析 Spark中的DAG逻辑视图……………………………………………46 34.1DAG生成的机制 46 34.2DAG逻辑视图解析 …47 3.5RDD内部的计算机制…………………49 3.5.1Task解析 ………49 3.52计算过程深度解析……………………………………………49 3.6 Spark Rdd容错原理及其四大核心要点解析………………………57 3.6.1 Spark RDD容错原理………………………57 36.2RDD容错的四大核心要点…………………57 3.7 Spark RDD中 Runtime流程解析 …59 3.7.1 Runtime架构图………………59 3.7.2生命周期………………60 3.8通过 WordCount实战解析 Spark RDD内部机制 ………………… …70 3.8.1 Spark WordCount动手实践………30 3.82解析RDD生成的内部机制………………………………………72 3.9基于 Data Set的代码到底是如何一步步转化成为RDD的……………………78 第4章 Spark Driver启动内幕剖析… 81 41 Spark Driver Program剖析…………………………81 4.1.1 Spark Driver Program…………………………………………… …81 4.1.2 Spark Context深度剖析… …81 4.13 Spark Context源码解析……………………………………………………82 4.2 DAGScheduler解析………………1 4.2.1DAG的定义 …96 42.2DAG的实例化……… …………9 7 42.3 DAGScheduler划分 Stage的原理………………………………98 424 DAGScheduler划分 Stage的具体算法 4.2.5 Stage内部Task获取最佳位置的算法…113 43 Task Scheduler解析……16 431 TaskScheduler原理剖析……………………………116 4.3.2 Task Scheduler源码解析 117 4.4 SchedulerBackend解析………………………132 4.4.1 Scheduler Backend原理剖析………………………132 44.2 Scheduler Backend源码解析 …………132 443 Spark程序的注册机制…………………………………133 目录 444 Spark程序对计算资源E xecutor的管理……………………134 4.5打通 Spark系统运行内幕机制循环流程…… …………135 46本章总结…… 145 第5章 Spark集群启动原理和源码详解… ………146 5.1 Master启动原理和源码详解… …………146 5.1. Master启动的原理详解 146 5.1.2 Master启动的源码详解… 111……147 513 Master ha双机切换… ……………57 5.1.4 Master的注册机制和状态管理解密 5.2 Worker启动原理和源码详解 ………170 5.2. Worker启动的原理流程 ..…170 5.22 Worker启动的源码详解… ………… ……………174 5.3 Executor Backend启动原理和源码详解……… …178 53.1 ExecutorBackend接口与 Executor的关系………178 53.2 Executor Backend的不同实现 …………179 533 ExecutorBackend中的通信 ……… ……181 534 Executor Backend的异常处理 183 54 Executor中任务的执行…… …““ ……………184 54.1 Executor中任务的加载… ………184 542 Executor中的任务线程池… …………………………………185 543任务执行失败处理… ……………………………………………186 544揭秘 TaskRu unner ………… 188 5.5 Executor执行结果的处理方式… ………189 56本章总结 “非丰非 ………197 第6章 Spark Application提交给集群的原理和源码详解…… …………98 6.1 Spark Application到底是如何提交给集群的 ,…198 6.1.1 Application提交参数配置详解 …198 6.12 Application提交给集群原理详解 ……………… 61.3 Application提交给集群源码详解…… 20l 6.2 Spark Application是如何向集群申请资源的………… …211 62.1 Application申请资源的两种类型详解 …,,………………211 622 Application申请资源的源码详解 ……………1213 6.3从 Application提交的角度重新审视 Driver ……219 6.3.1 Driver到底是什么时候产生的… ………………………220 6.3.2 Driver和 Master交互原理解析 …………………238 63.3 Driver和 Master交互源码详解… 64从 Application提交的角度重新审视 Executor …………………249 64.1 Executor到底是什么时候启动的… ,11…49 64.2 Executor如何把结果交给 Application… ……254 Spark大数据商业实战三部曲:内核解密商业案例性能调优 6.5 Spark1.6RPC内幕解密:运行机制、源码详解、Nety与Akka等………254 6.6本章总结………… 267 第7章Shue原理和源码详解… ………268 7.1概述……………………………………………………………268 7.2 Shuffle的框架………………………………………269 7.2.1 Shuffle的框架演进… …269 722 Shuffle的框架内核 ……270 7.2.3 Shuffl框架的源码解析 272 7.2.4 Shuffle数据读写的源码解析……………………………275 7.3 Hash Based Shuffle……………………………………………281 7.3.1概述……………………………………………281 732 Hash Based Shuffle内核… ……………282 7.3.3 Hash Based shuffle数据读写的源码解析………………………285 74 Sorted Based Shuffle…………………………………………………290 74.1概述………292 74.2 Sorted Based Shuffle内核………… ……293 7.4.3 Sorted Based Shuffle数据读写的源码解析……………………………294 7.5 Tungsten Sorted Based Shuffle………………………………………………………………302 7.5.1概述 …302 7.52 Tungsten Sorted Based Shuffle内核 ………3 7.5.3 Tungsten Sorted Based Shuffle数据读写的源码解析………33 76 Shuffle与 Storage模块间的交互 309 7.6.1 Shuffle注册的交互………………………………310 7.62 Shuffle写数据的交互……14 7.63 Shuffle读数据的交互 ……315 7.6.4 Block Manager架构原理、运行流程图和源码解密……………315 7.6.5 BlockManager解密进阶: Block Manager初始化和注册解密、 Block Manager Master工作解密、 Block Transfer Service解密、本地数据读写解密、远程数据 读写解密……………………………………………324 7.7本章总结……………………………………………………………341 第8章Job工作原理和源码详解……………………………………………………………342 8.1Job到底在什么时候产生……………………………………………342 8.1.1触发Job的原理和源码解析………………………………………342 8.12触发Job的算子案例……………………………344 82 Stage划分内幕………… ……………………………………345 821 Stage划分原理详解 ………………345 82.2 Stage划分源码详解……………………………346 8.3Task全生命周期详解…………………………346 8.3.1Task的生命过程详解…………………………… 347 VI· 目录 8.32Task在 Driver和 Executor中交互的全生命周期原理和源码详解…………348 84 ShuffleMap Task和 ResultTask处理结果是如何被 Driver管理的…………364 84.1 ShuffleMap Task执行结果和 Driver的交互原理及源码详解………… 364 84.2 Resulttask执行结果与 Driver的交互原理及源码详解…………………370 第9章 Spark中 Cache和 checkpoint原理和源码详解 9.1 Spark中 Cache原理和源码详解… …372 9.1. Spark中 Cache原理详解…… 372 9.1.2 Spark中 Cache源码详解……372 92 Spark中 checkpoint原理和源码详解…………………………381 9.21 Spark中 checkpoint原理详解…………………………381 9.2.2 Spark中 checkpoint源码详解…………………381 第10章 Spark中 Broadcast和 Accumulator原理和源码详解-………391 l0. I Spark中 Broadcast原理和源码详解……………91 10.1.1 Spark中 Broadcast原理详解…… ,,,,,,, ……391 10.1.2 Spark中 Broadcast源码详解………………………………………393 10.2 Spark中 Accumulator原理和源码详解…………………………396 1021 Spark中 Accumulator原理详解… …396 1022 Spark中 Accumulator源码详解…………………………………396 第11章 Spark与大数据其他经典组件整合原理与实战……99 1l1 Spark组件综合应用……………………………………………………399 112 Spark与 Alluxio整合原理与实战……………………………400 112.1 Spark与 Alluxio整合原理…… 400 1.2.2 Spark与 Alluxio整合实战………………………………………………401 13 Spark与 Job server整合原理与实战… …403 1 Spark与 Job server整合原理……… …403 113.2Spak与 Job Server整合实战…………………………404 114 Spark与 Redis整合原理与实战……………………06 114.1 Spark与 Redis整合原理 ………………406 11.2 Spark与 Redis整合实战……………………………407 中篇商业案例 第12章 Spark商业案例之大数据电影点评系统应用案例…………………………412 12.1通过RDD实现分析电影的用户行为信息 412 12.1.1搭建IDEA开发环境 …412 12.1.2大数据电影点评系统中电影数据说明………………………………425 12.1.3电影点评系统用户行为分析统计实战 428 12.2通过RDD实现电影流行度分析 …431 VIL.

...展开详情
试读 127P spark大数据商业实战三部曲完整版
img
张教主z

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    spark大数据商业实战三部曲完整版 29积分/C币 立即下载
    1/127
    spark大数据商业实战三部曲完整版第1页
    spark大数据商业实战三部曲完整版第2页
    spark大数据商业实战三部曲完整版第3页
    spark大数据商业实战三部曲完整版第4页
    spark大数据商业实战三部曲完整版第5页
    spark大数据商业实战三部曲完整版第6页
    spark大数据商业实战三部曲完整版第7页
    spark大数据商业实战三部曲完整版第8页
    spark大数据商业实战三部曲完整版第9页
    spark大数据商业实战三部曲完整版第10页
    spark大数据商业实战三部曲完整版第11页
    spark大数据商业实战三部曲完整版第12页
    spark大数据商业实战三部曲完整版第13页
    spark大数据商业实战三部曲完整版第14页
    spark大数据商业实战三部曲完整版第15页
    spark大数据商业实战三部曲完整版第16页
    spark大数据商业实战三部曲完整版第17页
    spark大数据商业实战三部曲完整版第18页
    spark大数据商业实战三部曲完整版第19页
    spark大数据商业实战三部曲完整版第20页

    试读已结束,剩余107页未读...

    29积分/C币 立即下载 >