没有合适的资源?快使用搜索试试~ 我知道了~
五分钟学大数据-SparkSQL底层执行原理
需积分: 0 0 下载量 200 浏览量
2024-03-06
14:55:26
上传
评论
收藏 796KB PDF 举报
温馨提示
试读
11页
五分钟学大数据-SparkSQL底层执行原理
资源推荐
资源详情
资源评论
本文档来自公众号:五分钟学大数据
1 / 11
SparkSQL 底层执行原理
本文档来自公众号:五分钟学大数据
微信扫码关注
本文档来自公众号:五分钟学大数据
2 / 11
目录
一、Apache Spark
............................................................................................................
3
二、Spark SQL 发展历程
.................................................................................................
3
1. Shark 的诞生
.......................................................................................................
3
2. SparkSQL-DataFrame 诞生
.................................................................................
4
3. SparkSQL-Dataset 诞生
.....................................................................................
4
三、Spark SQL 底层执行原理
.........................................................................................
4
步骤 1. Parser 阶段:未解析的逻辑计划
............................................................
5
步骤 2. Analyzer 阶段:解析后的逻辑计划
........................................................
6
步骤 3. Optimizer 模块:优化过的逻辑计划
......................................................
7
步骤 4. SparkPlanner 模块:转化为物理执行计划
...........................................
8
步骤 5. 执行物理计划
.............................................................................................
9
总结:整体执行流程图
............................................................................................
9
四、Catalyst 的两大优化
............................................................................................
10
1. RBO:基于规则的优化
......................................................................................
10
2. CBO:基于代价的优化
......................................................................................
11
本文档来自公众号:五分钟学大数据
3 / 11
传送门:Hive SQL 底层执行过程详细剖析
一、Apache Spark
Apache Spark 是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在
大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户
将 Spark 部署在大量硬件之上,形成集群。
Spark 源码从 1.x 的 40w 行发展到现在的超过 100w 行,有 1400 多位大牛贡献了
代码。整个 Spark 框架源码是一个巨大的工程。
二、Spark SQL 发展历程
我们知道 Hive 实现了 SQL on Hadoop,简化了 MapReduce 任务,只需写 SQL 就
能进行大规模数据处理,但是 Hive 也有致命缺点,因为底层使用 MapReduce 做
计算,查询延迟较高。
1. Shark 的诞生
所以 Spark 在早期版本(1.0 之前)推出了 Shark,这是什么东西呢,Shark 与
Hive 实际上还是紧密关联的,Shark 底层很多东西还是依赖于 Hive,但是修改
了内存管理、物理计划、执行三个模块,底层使用 Spark 的基于内存的计算模型,
从而让性能比 Hive 提升了数倍到上百倍。
产生了问题:
1. 因为 Shark 执行计划的生成严重依赖 Hive,想要增加新的优化非常困难;
剩余10页未读,继续阅读
资源评论
Libby博仙
- 粉丝: 63
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功