Spark面试攻略：全面准备与技巧指南.docx资源-CSDN文库

spark

求职面试

52 浏览量 2024-01-26 22:15:23 上传评论收藏 1.85MB DOCX 举报

资源推荐

资源详情

资源评论

基础问题

1. 你知道 Spark 中的 lineage（血缘）吗？它是什么有什么作用和意义呢？

所谓 Lineage，就是将所有的工作流程、或者说所有的数据流看成一张有向无环图（DAG）。在这张图上，

每个节点就是一个原子的操作，每条有向边就代表了数据从一个操作流动到下一个操作。这个 DAG 能精确

撤销某个 RDD 被 Spark 丢失或者数据损坏的情形，通过回放 DAG 中的操作形成新的数据分区来代替损坏的

数据分区。

血缘所发挥的优点主要如下：

 对数据的追踪和调试：有了血缘，你可以大体上了解业务和数据从哪里过来，对了解数据和业务、找

bug 非常有帮助。

 数据容错：利用血缘机制，RDD 可以通过 DAG 图自动重算，使得整个 Spark 框架变得更加健壮。

 精准的修改和调试：想更改某部分逻辑时，我们不需要重新计算整个 DAG，而只需要更改对应的节点

算子或数据，非常方便。

 所以说，在分布式计算框架 Spark 中，lineage 是一种重要的机制，有利于数据流的稳定性和准确性衡

量，提供了极巡错误的和寻找薛挡的途径。

2. 你将如何处理 Spark 中的倾斜数据？

 诊断和确认数据倾斜:

 首先，通过 Spark UI 观察 Stage 的执行时间以及 Task 的执行时长来诊断是否存在数据倾斜。

 使用 explain 命令查看物理执行计划，看看是否有大量任务集中在少数 Partition 中。

 增加 shuffle 分区数:

 可以通过.config("spark.sql.shuffle.partitions", "数值")来增加 shuffle 阶段的 partition 数量，尽量避免过

载。

 使用随机前缀和扩展键:

 对倾斜的 key 加上随机前缀，通过 flatMap 拆分成多条记录，之后进行 shuffle，最后去掉随机前缀。

 广播小表:

 如果倾斜是 Join 操作引起的，并且其中一个 DataFrame 的尺寸足够小，那么可以使用广播 Join(broadcast)

来避免 shuffle。

 MEMORY_AND_DISK：如果 RDD 无法装入内存中，那些未被存入内存的分区就会存储于硬盘上，当需

要处理这些分区的时候，可以直接从外部获取而不用每次都从头计算。适用场景是当你的 RDD 大于

内存大小，或者希望在内存压力较大时有效使用硬盘的情况。

 MEMORY_ONLY_SER：这个级别是使用序列化的方式将数据存储到内存中，因此虽然处理速度上较慢，

但是可以将更多的数据存储到内存中，所以比 MEMORY_ONLY 级别更能够优化存储。

 MEMORY_AND_DISK_SER：序列化存储在内存和磁盘中，一般适用于数据过大处理内存过小的场景。

当我们保存的 RDD 非常巨大以至于有必要使用压缩。

 DISK_ONLY：把所有数据写入硬盘，不缓存在内存中。适用场景是数据集不怎么频繁访问，数据过大

处理的情况。

 OFF_HEAT：数据会以反序列化的形式存入堆外内存，当 jvm 的内存空间不足以缓存所有热点数据时

可以考虑使用。

5. 解释 Spark 广播变量的目的和好处。

 减少网络通信成本：在没有广播变量的情况下，每次任务执行时，共享对象需要从驱动节点复制到每

个执行节点。当共享对象很大时，这会造成大量的网络传输，从而降低效率。

 节省内存资源：通过广播变量，每个节点只需要保存一份共享对象的副本，即使有多个任务运行在该

节点上。这有助于减少内存的使用。

6. Spark 在其执行模型中如何利用内存管理和存储？

Apache Spark 在执行模型中的内存管理和存储可以从以下几个方面考虑：

 存储体系：Spark 使用了一个统一的存储体系，将内存分为三部分：Execution（执行）、Storage（存

储）和的 User Memory（用户内存）。Execution 用于进行数据的 shuffle、join、sort 等运算；Storage

用来将用户持久化的数据（比如 DataFrame, RDD）放入内存中保持住；User Memory 用来在程序执行

的过程中，进行数据的持久化和内部数据结构的管理。在低版本中，Storage 和 Execution 采用静态分

配方式，而从 Spark 1.6 版本开始，引入了内存管理模块 Tungsten，对 Storage 和 Execution 存储采用

unified Memory 管理方式（即 Execution、Storage 采用动态分配方式）。

 资源划分：Spark 写应用程序的时候，我们需要注意如何适当的设置数据存储器占究竟比和应用程序

占比（尽管这会变得更加困难，因为逻辑上功能应当是尽可能地重用而非注册新的存储或数据结

构）。Spark 在内存资源管理上也为我们提供了细粒度的控制阈值，例如最大堆大小、Native Memory

等；

 内存策略: 可以设置相关的持久化级别以便在需要的时候将中间数据或者结果缓存在内存里面，例如

MEMORY_ONLY EVERY，这就可以避免了重复计算数据，显著地提高了执行效率。同时 Spark 也提供

其他的持久化级别以满足复杂的应用场景，如 MEMORY_AND_DISK，磁盘和内存都用到越好，更好地

可以让你方便的折中不同的内存组织方式。

7. 可以说下 Spark 如何处理数据序列化及其重要性。

 Spark 支持两种序列化库：Java 序列化和 Kryo 序列化。在默认配置下，Spark 使用的是 Java 序列化库，

但相较于 Kryo 序列化库，Java 序列化的速度和序列化后的空间效率并不高。所以在 Spark 中，推荐

将 spark.serializer 属性设为 org.apache.spark.serializer.KryoSerializer，从而改用 Kryo 序列化库，这对

性能和空间使用率都有可能获得明显的提升。

 内存存储可以通过序列化减少数据在 JVM 堆内的存储或采用离堆存储以提高存储效率（可以提高高

达 10 倍的效率）

 序列化同时也是决定能否将 RDD, DataFrame 或 DataSet 持久化到磁盘，或是否可以在网络中传输数

据。

8. 您有一个内存无法容纳的大型数据集。您将如何优化 Spark 作业来处理这

种情况？

 数据划分：将大型数据集拆分为内存能处理的小份数据集。使用 sortBy 或 hash 分区等操作，利用

Spark 的分区能力重新划分数据的方式，尽量让分布更均匀并在本地内存之内处理。

 使用更有效的数据存储格式和序列化方法：序列化和存储格式可以明显影响你的数据大小和处理速

度。例如，构建启用 parquet 列式数据格式可以节省大量空间。

 数据倾斜优化：数据倾斜是引发处理延迟的主要原因之一，容易导致某任务数据量过大，使任务卡在

某个阶段，无法执行后续步骤。这就需要进行数据倾斜处理来优化大型数据集的执行。

 选择适合的数据结构：使用 DataFrames 或 DataSets 替代 RDDs 可以有效析构基础数据结构或数据集

以便以更高级的标记标注数据的结构。

 大数据持久化选择：在必须进行多次相关运算的时候，可以选择持久化存储在磁盘而非内存，比如存

放中间结果数据。

 使用更大的硬件：如果经济情况允许，可以横向扩展集群规模，或纵向扩展单节点硬件性能。

9. 您需要对两个大型数据集执行连接操作。您将采用什么策略来优化连接性

能？

 使用 Broadcast Hash Join：

 如果其中一个数据集明显小于另一个（小于 Spark 配置的广播限制值，默认为 10MB），可以将小的

数据集广播到所有节点，以减少 shuffle 的数据量。

 过滤和投影：

 在连接之前先过滤掉不必要的行，且只选择必要的列，这样可以减小数据的传输和处理量。

 合理的分区和分桶：

 对数据集进行分区，使得具有相同键的记录落在相同的节点上，减少 shuffle 的数据量。

 使用分桶技术（如果是 Hive 表可以使用）可以在不 shuffle 的情况下进行连接。

 增加并行度：

 通过调整 spark.sql.shuffle.partitions 配置，可以控制 shuffle 过程中的并行度。

 排序合并连接：

 如果两个数据集是按照连接键排序的，可以使用排序合并连接，这比 shuffle 连接性能更好。

 Co-located Join：

如果在不同的表上有相同的分区键，先进行分桶。每个桶对应的数据会存储在一个或多个文件中。这些文

件存储在分布式文件系统（如 HDFS）上。在 HDFS 中，一个文件会被分割成多个块（block），每个块有多

个副本分散存储在不同的节点上。Spark 会尽量在存储这些数据的节点上调度处理任务，从而减少网络传

输和提高处理效率。

 调整数据大小：

 确保两个连接的 DataFrame 的 size 相似，以此来减小 shuffle 的成本。

 使用数据倾斜解决方案：

 对于数据倾斜严重的键，可以进行特殊处理，例如将倾斜的过大的键抽取处理，然后单独进行连接操

作。

 监控和优化：

 在优化连接时，应该使用 Spark UI 和其他监控工具来评测具体的执行计划，并进一步调整配置。

10. 您需要在 Spark 中高效处理嵌套的 JSON 数据。您将使用什么方法和技术

来处理嵌套结构？

在 Spark 中处理嵌套的 JSON 数据，可以利用 Spark SQL 的 DataFrame API，它提供了一系列强大的内置函

数来解析和处理嵌套结构的数据。以下是一些处理方法和技术：

Commented [l1]: 排序合并连接（Sort Merge Join）

是一种在两个已经排序的数据集上进行连接操作

的算法。

在 Spark 中，当两个 DataFrame 或 Dataset 使用相

同的键进行连接，并且这些键上的数据是预先排

序的，Spark 可能会选择使用排序合并连接来代替

shuffle hash 连接。要在 Spark 中使用排序合并连

接优化连接性能，可以按照以下步骤操作：

1.排序数据集：

在连接之前，分别对两个数据集基于

连接键进行排序。在 Spark SQL 中，

可以使用 orderBy 函数。

Commented [l2]: Co-located Join 是一

种在分布式数据库和大数据系统中

使用的连接策略，特别指在物理上相

同或相邻位置的节点上存储的数据

之间的 Join 操作。基本概念是，如果

两个不同数据集的相关数据位于同

一个集群节点上，连接操作可以在不

需要跨节点传输大量数据的情况下

进行，从而显著减少网络传输成本，

提高查询性能。

Commented [l3]: 假设我们有两个 DataFrame，

分别命名为 df1 和 df2，它们都基于同一个键

（例如 key 列）被分桶到了 10 个桶中。这

意味着 df1 和 df2 都有 10 个桶文件，分别对

应桶号 0 到 9。每个桶文件包含了该桶号对

应的键值的所有记录。

当我们要在 df1 和 df2 之间执行一个 join 操作

时，如果没有桶化，Spark 可能需要执行一

个全局 shuffle，将所有具有相同键的记录

移到同一个节点上以便执行 join。这可能涉

及大量的网络传输，特别是当数据集很大

时。

但是，由于 df1 和 df2 是基于相同键分桶的，

Spark 知道桶号为 0 的 df1 中的所有记录只

需要与桶号为 0 的 df2 中的记录进行 join，

以此类推，直到桶号 9。因此，对于桶号为

0 的 join，Spark 将启动一个任务，这个任

务会读取 df1 的桶号为 0 的文件和 df2 的桶号

为 0 的文件，然后在一个节点上执行它们

之间的 join。由于这个任务不需要来自其他

桶的数据，所以不需要执行 shuffle。这个

过程会重复进行，直到所有的桶号（0 到

9）都被处理。

剩余29页未读，继续阅读

评论收藏

内容反馈

数据与后端架构提升之路

粉丝: 1w+
资源: 42

Spark面试攻略：全面准备与技巧指南.docx

海外工程经营合规：全面布局,有效应对.docx

超人面试必备：英文面试问题加答案.docx

面试一面必备：面试自我介绍技巧大全.docx

计算机三级信息安全技术：安全事件分类分级指南.docx

导游考试分享：导游资格考试技巧心得.docx

事业单位面试技巧：面试中的四大禁忌.docx

深度：全面分析全球数据库技术.docx

公务员面试技巧：公务员面试套话大全.docx

作业指引2：全面预算启动作业指引.docx

2016年江西事业单位考试面试备考：面试热点连连看.doc.docx

公务员面试技巧：如何明确调研的目的.docx

计算机等考一级知识辅导：WPS2000实用技巧小集.docx

大学班级开学讲话：全面发展,创造幸福.docx

大学班级开学讲话：全面发展，创造幸福.docx

公务员面试技巧：个性认知题四大原则.docx

面试经验：公务员面试注意事项.docx

公务员面试技巧：现场模拟题如何引人入胜.docx

公务员面试技巧：人际关系题泛泛而谈怎么办.docx

国家公务员面试技巧：常见五问五答.docx

Scala-升级版.docx

基于spark的图书推荐系统

大数据期末课设~基于spark的气象数据处理与分析

全国职业技能大赛大数据赛项十套赛题（shtd）

大数据全套教程完整版

全国2014-2018年空气质量csv数据集文件数据

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

高分毕业设计 基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.

Spark气象监测数据分析：代码整合，包括预处理，分析，数据可视化

基于hadoop和echarts的教育大数据可视化系统

最新资源

高分毕业设计基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.