【免费】spark课程复习资料资源-CSDN文库

spark

需积分: 0 116 浏览量 2024-05-15 13:01:13 上传评论 1 收藏 3.94MB PDF 举报

资源推荐

资源详情

资源评论

第一章

1、Spark 的生态系统：Spark：基于内存运算，代替 Hadoop 中的计算（MapReduce）

Sqoop：基于内存（内存编程模式）；MapReduce：离线编程模式

Spark 和 Hadoop 的区别和联系：

对比项

Spark

Hadoop

大数据框架

是

分布式存储

本身没有存储特性，支持 HDFS

自带 HDFS

并行计算

是

计算效率

内存计算效率高

调用磁盘 ID 较多，相对慢

框架

支持 Yarm，HDFS，但是不强制依赖

强制依赖 YARN 和 HDFS

2、Spark 的构架设计和运行流程：

Spark 作业运行流程

1、构建 Spark Application 的运行环境，启动𝑆𝑝𝑎𝑟𝑘𝐶𝑜𝑛𝑡𝑒𝑥𝑡

2、𝑆𝑝𝑎𝑟𝑘𝐶𝑜𝑛𝑡𝑒𝑥𝑡向资源管理器 Spark Master（可以是 Standalone、Mesos、

YARN）注册申请运行 Executor 资源

3、资源管理器分配 Executor 资源，并启动 Executor。并且 Executor 发送心跳给资源管理器

4、Executor 向𝑆𝑝𝑎𝑟𝑘𝐶𝑜𝑛𝑡𝑒𝑥𝑡申请 Task

5、𝑆𝑝𝑎𝑟𝑘𝐶𝑜𝑛𝑡𝑒𝑥𝑡将应用程序分发给 Executor。具体包括构建 DAG 图，将 DAG 图分

解成 Stage，将 Taskset 发送给𝑇𝑎𝑠𝑘𝑆𝑐ℎ𝑒𝑑𝑢𝑙𝑒𝑟，以及由 Task Scheduler 将 Task 发

送给 Executor 运行。

6、Task 在 Executor 上运行，运行完释放所有资源。

Spark 使用 Scala 语言进行开发，Scala 运行在 Java 平台之上

Spark 运行在 Linux 操作系统下

Linux 的操作系统的好处：文件操作系统（一切皆为文件）、开源（免费）

7、Spark 的特点：处理速度快、基于内存、高容错率、实时

第四章：𝑹𝑫𝑫知识点

MPP 数据库（Massively Parallel Processing）：

MPP 架构是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自

部分的结果汇总在一起得到最终的结果。采用 MPP 架构的数据库称为 MPP 数据库。

𝑅𝐷𝐷是一种可扩展的弹性分布式数据集，是 Spark 最基本的数据抽象，表示一个只读、

分区且不变的数据集合，是一种分布式的内存抽象，不具备 Schema 的数据结构，可以

基于任何数据结构创建，如 tuple（元组）、𝑑𝑖𝑐𝑡（字典）和 list（列表）等。

详解：

只读：不能修改，只能通过转换操作生成新的 𝑅𝐷𝐷。

分布式：可以分布在多台机器上进行并行处理。

弹性：计算过程中内存不够时它会和磁盘进行数据交换。

基于内存：可以全部或部分缓存在内存中，在多次计算间重用

为什么𝑅𝐷𝐷无 Schema？

1、schema 可以理解为关系数据库的表结构，是强约束的,如果操作不存在的列，会报

错，业务变化是扩充列比较麻烦

2、no schema 也就是不用表结构，数据结构自由度很高，可以随意指定

𝑅𝐷𝐷的特性：parallelize--取最大核数（分区数）、textFile--取最小核数来源于文本

1、𝑅𝐷𝐷是分区（分片）组成的列表 2、𝑅𝐷𝐷是以单个分区为单位进行计算

3、𝑅𝐷𝐷之间存在依赖关系 4、𝑅𝐷𝐷决定计算数据如何分区

5、𝑅𝐷𝐷决定在哪些位置计算分区数据

1、𝑅𝐷𝐷是分区（分片）组成的列表（分区是一个物理概念;𝑅𝐷𝐷是一个逻辑概念）

✓数据会被切分为多个分区，分布在 worker 上处理

✓每个分区都会被一个任务处理。（并行处理任务<=分区）

✓sc.𝑝𝑎𝑟𝑎𝑙𝑙𝑒𝑙𝑖𝑧𝑒 创建 𝑅𝐷𝐷 时，可以指定𝑅𝐷𝐷的分区数，如果没有指定，采用默认

值。默认值=min(2，分配的 CPU 核数)

✓使用外部文件创建 𝑅𝐷𝐷 时，在默认情况下，Spark 为文件的每一个 block（块）

创建的一个 partition 分区（HDFS 中块大小默认值是 128𝑀𝐵、有三个进程）

3、𝑅𝐷𝐷之间存在依赖关系

𝑅𝐷𝐷每一次转换都生成一个新的𝑅𝐷𝐷，多个𝑅𝐷𝐷之间有前后依赖关系。在某个分区数据

丢失时，Spark 可以通过依赖关系重新计算丢失的分区数据，而不是重头对𝑅𝐷𝐷的所有

分区数据进行计算。→容错性

4、𝑅𝐷𝐷决定计算数据如何分区

✓Partitioner 是𝑅𝐷𝐷中的分区函数,key-value 数据按一定规则分配到指定的 Partitioner

上去处理。

✓两种分区:Hash Partitioner、𝑅𝑎𝑛𝑔𝑒𝑃𝑎𝑟𝑡𝑖𝑡𝑖𝑜𝑛𝑒𝑟

Transformation（转换算子、懒加载）&Action（动作算子）：

1、𝑅𝐷𝐷经过 Transform 以后还是𝑅𝐷𝐷。

2、𝑅𝐷𝐷经过 Action 算子操作之后,不再返回𝑅𝐷𝐷。

3、𝑅𝐷𝐷运行 Transform 都是惰性的,只记录不执行,直至 Action 算子才会全部执行。

𝑅𝐷𝐷的创建方法：

1.Spark 可以通过调用𝑆𝑝𝑎𝑟𝑘𝐶𝑜𝑛𝑡𝑒𝑥𝑡的方法（是以下的𝑠𝑐）将一个已存在的集合变成𝑅𝐷𝐷。

2.Spark 可以从本地文件系统、文本文件、𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒𝐹𝑖𝑙𝑒𝑠、HDFS、Cassandra、

distinct

筛选

去重

take(n)

筛选

取前 N 个

first

筛选

取第一个

𝑠𝑜𝑟𝑡𝐵𝑦

排序

返回排序的数据，默认升序

top(n)

排序

返回降序的数据前 N 个元素

join

连接操作

内连接

𝑙𝑒𝑓𝑡𝑂𝑢𝑡𝑒𝑟𝐽𝑜𝑖𝑛

连接操作

左外连接

𝑟𝑖𝑔ℎ𝑡𝑂𝑢𝑡𝑒𝑟𝐽𝑜𝑖𝑛

连接操作

右外连接

𝑢𝑛𝑖𝑜𝑛(𝑅DD)

集合

合并

𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑡𝑖𝑜𝑛(RDD)

集合

交集

𝑠𝑢𝑏𝑡𝑟𝑎𝑐𝑡(RDD)

集合

减去交集

𝑚𝑎𝑝𝑃𝑎𝑟𝑡𝑖𝑡𝑖𝑜𝑛𝑠

分区

针对每一个分区做 Map 操作

𝑚𝑎𝑝𝑃𝑎𝑟𝑡𝑖𝑡𝑖𝑜𝑛𝑠𝑊𝑖𝑡ℎ𝐼𝑛𝑑𝑒𝑥

分区

针对每一个分区做 Map 操作，

带分区参数

glom

分区

把每个分区数据列表作为元素，

组成新列表

coalesce

分区

归并（reduce）分区数量 n

aggregate：从初始值开始，聚合各个分区结果，再把分区结果聚合。类似 MapReduce。

aggregate(𝑧𝑒𝑟𝑜𝑉𝑎𝑙𝑢𝑒【初始值】,𝑠𝑒𝑞𝑂𝑝【分区操作】,𝑐𝑜𝑚𝑏𝑂𝑝【分区结果

聚合操作】)

代码：

>>> 𝑟𝑑𝑑=sc.𝑝𝑎𝑟𝑎𝑙𝑙𝑒𝑙𝑖𝑧𝑒([1, 2, 3, 4], 2)

>>> 𝑟𝑑𝑑.aggregate(0,lambda x,y:max(𝑥,y),𝑙𝑎𝑚𝑏𝑑𝑎 x,𝑦:x+y)

𝑔𝑒𝑡𝑁𝑢𝑚𝑃𝑎𝑟𝑡𝑖𝑡𝑖𝑜𝑛𝑠():统计分区数（去重后，分区数不变。除非指定分区数）

Pair 𝑅𝐷𝐷 简介：

1、Spark 为包含键值对（key-value）类型的𝑅𝐷𝐷提供了一些专有的操作，这些𝑅𝐷𝐷

被称为𝑃𝑎𝑖𝑟𝑅𝐷𝐷。在 Python 数据结构体现为 2 个元素的元组，例如(‘𝑘𝑒𝑦’, ‘𝑣𝑎𝑙𝑢𝑒’)

2、键值对 𝑅𝐷𝐷 是一种常见的数据类型，具有广泛的应用，像聚合计算等。

3、𝑃𝑎𝑖𝑟𝑅𝐷𝐷 提供了并行操作各个键或跨节点重新进行数据分组的操作接口。

𝑷𝒂𝒊𝒓𝑹𝑫𝑫 的转换（Transformation）

𝑟𝑒𝑑𝑢𝑐𝑒𝐵𝑦𝐾𝑒𝑦(f)

将相同 key 的值聚合到一起，与

𝑔𝑟𝑜𝑢𝑝𝐵𝑦𝐾𝑒𝑦类似，reduce 任务的个数

可以通过第二个可选的参数来设置

𝑔𝑟𝑜𝑢𝑝𝐵𝑦𝐾𝑒𝑦()

在一个(K,𝑉)的𝑅𝐷𝐷上调用，返回一个

(K, Iterator[V])的𝑅𝐷𝐷，（没有入参）

剩余29页未读，继续阅读

评论收藏

内容反馈

大象代码

粉丝: 219
资源: 13

spark课程复习资料

spark期末复习题总结

spark课程作业ppt

北风网spark课程源码spark-study-scala.rar

spark的ppt和复习资料.zip

spark大数据系统课程

大数据技术课程的Spark大作业以及Spark实验.zip

《Spark编程基础及项目实践》课程标准.pdf

Spark零基础思维导图(内含spark-core ，spark-streaming,spark-sql)，总结的很全面.zip

spark课程设计作业：银行用户流式判断+垃圾邮件判断+电影推荐系统（三个spark实战项目）.zip

基于spark的大数据论文资料

基于Spark的零售交易数据分析

Python大数据之Spark编程基础与提升视频课程课件PPT模板.pptx

Spark3+Clickhouse+Hadoop大数据实战视频课程（2021新课）.rar

spark全套学习资料.zip

spark 相关文档资料

spark学习资料大全 下载 六份资料

基于SPARK课程理念优化足球教学的实践探索

spark考试练习题含答案.rar

Scala-升级版.docx

基于spark的图书推荐系统

大数据期末课设~基于spark的气象数据处理与分析

全国职业技能大赛大数据赛项十套赛题（shtd）

全国2014-2018年空气质量csv数据集文件数据

大数据全套教程完整版

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

Spark气象监测数据分析：代码整合，包括预处理，分析，数据可视化

基于hadoop和echarts的教育大数据可视化系统

最新资源

spark学习资料大全下载六份资料