没有合适的资源?快使用搜索试试~ 我知道了~
spark原理与调优详解
资源推荐
资源详情
资源评论
目录
第 一 章 Spark 的 背 景 及 安 装 ...................................5
1.Spark 的背景以及安装和部署 ...................................5
1.1 Spark 产生的背景 ........................................5
1.2 什么是 Spark ............................................5
1.3 Spark 历史 ..............................................5
1.4 为什么要用 Spark ........................................6
1.5 Spark 对比 MapReduce ...................................7
2 spark 生态 ...................................................9
2.1 spark sql: .............................................9
2.2 Spark Streaming: ......................................10
2.3 MLLib: ................................................10
2.4 GraphX: ...............................................10
3 Spark 应用场景 ..............................................10
4 Spark 环境部署 ..............................................11
5 Standalone 集群模式安装 .....................................11
5.1 非高可用安装...........................................12
5.2 高可用安装 .............................................20
5.3 spark-shell 和提交模式 .................................24
5.4 Yarn 和 Spark 的 StandAlone 调度模式对比 .................26
6.spark 开发 ..................................................32
6.1 spark-shell 开发 .......................................32
6.2 搭建 spark 的开发环境 ...................................34
7 spark wordcount 代码实现 ....................................37
7.1 scala 版本 .............................................37
7.2 wordcount 的改版 .......................................38
7.3 打包执行 ...............................................39
第 二 章 Spark 的 RDD 编 程 01 ..................................42
1.RDD .........................................................42
1.1 RDD 设计背景 ...........................................42
1.2 RDD 概念 ...............................................42
1.3 spark 任务的执行过程 ...................................44
2 RDD 编程 ....................................................46
2.1 RDD 创建 ...............................................46
2.2 RDD 操作 ...............................................50
第 三 章 Spark 的 RDD 编 程 02 ..................................63
第 四 章 Spark 的 RDD 编 程 03 ..................................92
第 五 章 spark-rdd 的 缓 存 和 内 存 管 理 .........................111
1 rdd 的缓存和执行原理 .......................................111
1.1 cache 算子 ............................................111
1.2 cache 算子的存储位置 ..................................112
1.3 rdd 的缓存级别 ........................................112
1.4 缓存的使用 ............................................113
1.5 checkpoint ............................................115
1.6 rdd 的五大特性 ........................................116
2 spark 内存管理 .............................................121
2.1 静态内存管理——spark1.5 ..............................121
2.2 统一内存管理——spark1.6 以后 .........................123
第 六 章 spark-shuffle 和 共 享 变 量 ...........................127
1 共享变量 ...................................................127
2 BlockManager 分析 ..........................................133
3 spark 的 shuffle ...........................................135
3.1shuffle ................................................135
4 spark mapjoin ..............................................143
4.1 spark 使用的 pom .......................................143
4.2 mapjoin 所用工具及数据 ................................148
4.3 scala 版本实现上面的功能 ..............................151
4.4 定义 Driver 并运行 mapjoin .............................155
第 七 章 spark 序 列 化 、 GC 和 操 作 hbase .......................157
1 spark 序列化使用 ...........................................157
1.1 Java 序列化 ...........................................157
1.2 Kryo 序列化 ...........................................159
2 GC 对 spark 性能的影响分析 .................................162
2.1 什么是 GC .............................................162
2.2 垃圾收集的算法 ........................................162
2.3 JVM 的 minor gc 与 full gc ..............................165
2.4 频繁 GC 的影响及优化方法 ...............................167
3 spark 操作 hbase ...........................................167
3.1 hbase 配置 ............................................167
3.2 table put .............................................171
3.3 tableoutputformat put .................................173
3.4 tableoutputformat put partitions ......................175
3.5 通过 scan 读取 hbase 表 .................................176
第 八 章 spark-sql ..........................................180
1 SparkSQL 的发展历程 ........................................180
1.1 Hive and Shark ........................................180
1.2 实验室集群配置 ........................................181
1.3 spark-sql shell(自己玩) .............................187
1.4 spark thriftserver(共享玩) ..........................189
1.5 spark-webUI ...........................................193
1.6 spark-sql 执行过程 ....................................195
1.7 通过 JDBC 连接 thriftserver ............................195
1.8 spark-sql 编程........................................196
1.9 RDD、DataFrame、Dataset ...............................213
1.10 spark-sql 的 UDF ......................................214
第 九 章 spark Streaming01 ..................................220
1 spark streaming 介绍 .......................................220
1.1 背景 ..................................................220
1.2 Spark Streaming 设计..................................220
1.3 Spark Streaming 与 flink 的对比 .......................221
2 架构及运行流程 .............................................223
2.1 架构 ..................................................223
2.2 运行流程 ..............................................224
3 DStream ....................................................226
3.1 DStream 输入源 ........................................226
3.2 DStream 转换操作 ......................................227
3.3 DStream 输出操作 ......................................232
4 SparkStreaming 程序 ........................................233
4.1 socket 创建 DStream ...................................233
第 十 章 sparkStreaming02 ...................................238
4.2 updateStateByKey ......................................238
4.3 streaming 用 checkpoint 恢复历史数据 ...................239
4.4 updateStateByKey 只使用最近更新的值 ...................241
4.5 window 操作...........................................243
4.6 SparkStreaming 何时使用缓存?何时开启检查点? .........247
4.7 多 receiver 源 union 的方式.............................248
4.8 SparkStreaming 输出到 HDFS .............................250
第 十 一 章 sparkStreaming03 .................................253
5.sparkStreaming 接入 kafka ...................................253
5.1 spark-streaming-kafka .................................253
5.2 SparkStreaming 动态更新广播变量 .......................256
5.3 sparkStreaming-kafka 的 offset 管理 ....................259
第 十 二 章 spark 优 化 01 .....................................276
1 Spark 优化汇总 .............................................276
1.1 数据序列化 ............................................276
1.2 内存调优 ..............................................277
1.3 常用 shuffle 优化 ......................................283
第 十 三 章 spark 优 化 02 .....................................285
1.4 提高并行度(资源足够的情况下) ........................285
1.5 广播共享数据..........................................286
1.6 数据本地化 ............................................286
1.7 数据倾斜 ..............................................287
2 spark-streaming 优化 .......................................289
2.1 带有 receiver 的数据接收并行度调优——多个 DStream .....290
2.2 带有 receiver 的数据接收并行度调优——blockinterval ....290
2.3 数据接收并行度调优——task ............................291
2.4 数据处理并行度调优 ....................................291
2.5 数据序列化调优 ........................................292
2.6 batch interval 调优(最重要) .........................293
2.7 内存调优 ..............................................295
剩余289页未读,继续阅读
资源评论
青苍的世界
- 粉丝: 38
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功