没有合适的资源？快使用搜索试试~ 我知道了~

文库首页数据库Oracle五分钟学大数据-SparkSQL底层执行原理

五分钟学大数据-SparkSQL底层执行原理

需积分: 0 0 下载量 200 浏览量 2024-03-06 14:55:26 上传评论收藏 796KB PDF 举报

温馨提示

试读

11页

五分钟学大数据-SparkSQL底层执行原理

资源推荐

资源详情

资源评论

本文档来自公众号：五分钟学大数据

1 / 11

SparkSQL 底层执行原理

本文档来自公众号：五分钟学大数据

微信扫码关注

本文档来自公众号：五分钟学大数据

2 / 11

一、Apache Spark

............................................................................................................

二、Spark SQL 发展历程

.................................................................................................

1. Shark 的诞生

.......................................................................................................

2. SparkSQL-DataFrame 诞生

.................................................................................

3. SparkSQL-Dataset 诞生

.....................................................................................

三、Spark SQL 底层执行原理

.........................................................................................

步骤 1. Parser 阶段：未解析的逻辑计划

............................................................

步骤 2. Analyzer 阶段：解析后的逻辑计划

........................................................

步骤 3. Optimizer 模块：优化过的逻辑计划

......................................................

步骤 4. SparkPlanner 模块：转化为物理执行计划

...........................................

步骤 5. 执行物理计划

.............................................................................................

总结：整体执行流程图

............................................................................................

四、Catalyst 的两大优化

............................................................................................

1. RBO：基于规则的优化

......................................................................................

2. CBO：基于代价的优化

......................................................................................

本文档来自公众号：五分钟学大数据

3 / 11

传送门：Hive SQL 底层执行过程详细剖析

一、Apache Spark

Apache Spark 是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在

大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户

将 Spark 部署在大量硬件之上，形成集群。

Spark 源码从 1.x 的 40w 行发展到现在的超过 100w 行，有 1400 多位大牛贡献了

代码。整个 Spark 框架源码是一个巨大的工程。

二、Spark SQL 发展历程

我们知道 Hive 实现了 SQL on Hadoop，简化了 MapReduce 任务，只需写 SQL 就

能进行大规模数据处理，但是 Hive 也有致命缺点，因为底层使用 MapReduce 做

计算，查询延迟较高。

1. Shark 的诞生

所以 Spark 在早期版本（1.0 之前）推出了 Shark，这是什么东西呢，Shark 与

Hive 实际上还是紧密关联的，Shark 底层很多东西还是依赖于 Hive，但是修改

了内存管理、物理计划、执行三个模块，底层使用 Spark 的基于内存的计算模型，

从而让性能比 Hive 提升了数倍到上百倍。

产生了问题：

1. 因为 Shark 执行计划的生成严重依赖 Hive，想要增加新的优化非常困难；

剩余10页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

Libby博仙

粉丝: 63
资源: 3

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

五分钟学大数据-SparkSQL底层执行原理

五分钟学大数据-最强最全面数仓建设规范指南(强烈推荐).pdf

五分钟学大数据-数据结构与算法篇.pdf

五分钟学大数据-Spark数据倾斜及解决方案1

五分钟学大数据-Spark 面试八股文1

五分钟学大数据-最强数仓建设保姆级教程1

五分钟学大数据-Hadoop企业级调优手册1

五分钟学大数据-HBase 知识体系吐血总结1

五分钟学大数据-Hadoop知识体系吐血宝典1

五分钟学大数据-美团数据平台及数仓建设实践(全网独发)1

五分钟学大数据-大数据面试吹牛草稿V2.0(面试必备)1

公众号【五分钟学大数据】-大数据文档.rar

学大教育-中考选择填空专项训练-欧姆定律-电功率6页.pdf

学大教育-中考选择填空专项训练-热和能、能源的可持续性发展6页.pdf

Flink八股文-5分钟学大数据

五分钟学大数据_超全大数据面试宝典.pdf

紫光学大-000526-创始人回归战略重塑，个性化教育龙头再出发.zip

大数据培训有前景吗？学大数据的困惑-光环大数据培训.pdf

《零基础学大数据算法》.pdf

数据库系统概念（原书第七版）习题答案

oci.dll 12版本全部

oracle 课程学习笔记,超详细的

Kingbase KCA题库

数据库系统概念（原书第七版）课后作业题

win64-11gR2-client.zip

Oracle11安装依赖包，11.2.0.4.0版本

fineReport课后10题答案.zip

Oracle19c-Windows客户端

oracle 12c windows 安装包下载

Oracle19c(19.3)数据库驱动ojdbc.jar

最新资源