【免费】Spark讲义(上)1资源-CSDN文库

需积分: 0 135 浏览量 2022-08-04 14:36:34 上传评论收藏 8.21MB PDF 举报

资源详情

资源评论

资源推荐

大数据高速计算引擎Spark（上）【讲师：回灯】

课程内容：

MapReduce、Spark、Flink（实时） => 3代计算引擎；昨天、今天、未来

MapReduce、Spark：类MR的处理引擎；底层原理非常相似；数据分区、map task、reduce task、shuﬄe



第一部分 Spark Core

第1节 Spark概述

1.1 什么是Spark

Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算引擎

2009年诞生于美国加州大学伯克利分校AMP 实验室

2010年通过BSD许可协议开源发布

2013年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.0

2014年2月，Spark 成为 Apache 的顶级项目

2014年11月, Spark的母公司Databricks团队使用Spark刷新数据排序世界记录

Spark 成功构建起了一体化、多元化的大数据处理体系。在任何规模的数据计算中， Spark 在性能和扩展性上都更具

优势



Spark Core -- 离线

Spark SQL -- 离线、交互

Spark Streaming -- 实时

Spark GraphX -- 图处理

Spark原理

批量处理（离线处理）：通常时间跨度在数十分钟到数小时之间

交互式查询：通常时间跨度在数十秒到数分钟之间

流处理（实时处理）：通常时间跨度在数百毫秒到数秒之间



当同时存在以上三种场景时，传统的Hadoop框架需要同时部署三种不同的软件。如：

MapReduce / Hive 或 Impala / Storm



这样做难免会带来一些问题：

不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换

不同的软件需要不同的开发和维护团队，带来了较高的使用成本

比较难以对同一个集群中的各个系统进行统一的资源协调和分配



Spark所提供的生态系统足以应对上述三种场景，即同时支持批处理、交互式查询和流数据处理：

Spark的设计遵循“一个软件栈满足不同应用场景”的理念（all in one），逐渐形成了一套完整的生态系统

既能够提供内存计算框架，也可以支持SQL即席查询、实时流式计算、机器学习和图计算等

Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案



Spark 为什么比 MapReduce 快：

1、Spark积极使用内存。MR框架中一个Job 只能拥有一个 map task 和一个 reduce task。如果业务处理逻辑复杂，

一个map和一个reduce是表达不出来的，这时就需要将多个 job 组合起来；然而前一个job的计算结果必须写到

HDFS，才能交给后一个job。这样一个复杂的运算，在MR框架中会发生很多次写入、读取操作操作；Spark框架则

可以把多个map reduce task组合在一起连续执行，中间的计算结果不需要落地；

复杂的MR任务：mr + mr + mr + mr +mr ...

复杂的Spark任务：mr -> mr -> mr ......

2、多进程模型(MR) vs 多线程模型(Spark)。MR框架中的的Map Task和Reduce Task是进程级别的，而Spark Task

是基于线程模型的。MR框架中的 map task、reduce task都是 jvm 进程，每次启动都需要重新申请资源，消耗了不

必要的时间。Spark则是通过复用线程池中的线程来减少启动、关闭task所需要的系统开销。



1.3 系统架构

Spark运行架构包括：

Cluster Manager

Worker Node

Driver

Executor



Cluster Manager 是集群资源的管理者。Spark支持3种集群部署模式：Standalone、Yarn、Mesos；

剩余133页未读，继续阅读

评论0

内容反馈

ali-12

粉丝: 28
资源: 328

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip