Spark经典常见的面试题集合_spark面试题资源-CSDN文库

spark

11 浏览量 2024-01-03 20:52:57 上传评论收藏 1.36MB PDF 举报

资源推荐

资源详情

资源评论

问题1 ★★★

var、val、def三个关键字之间的区别；伴生类与伴生对象；

（1）问题分析：主要考察Scala中的基本概念，这些是应该熟练掌握的

（2）核心问题回答

var是变量声明关键字，类似于Java中的变量，变量值可以更改，但是变量类型不能更改

val常量声明关键字

def 关键字用于创建方法（注意方法和函数的区别）

还有一个lazy val（惰性val）声明，意思是当需要计算时才使用，避免重复计算



类和它的伴生对象同名且存在于同一个文件中，二者互为伴生；可以相互访问私有成员（字段和方

法）；



问题2 ★★★

case class 是什么，与case object的区别是什么

（1）问题分析：主要考察样例类的理解，样例类在 Scala、Spark 的开发中使用的非常频繁，对其应该

熟练掌握

（2）核心问题回答

样例类是scala中特殊的类。当声明样例类时，如下事情会自动发生：

构造器中每一个参数都成为val。除非它被显示的声明为var（不建议这样做）

提供apply方法。不用new关键字就能够构造出相应的对象

提供unapply方法。让模式匹配可以工作

将生成toString、equals、hashCode和copy方法。除非你显示的给出这些方法的定义

继承了Product和Serializable，即已实现序列化方法和可以应用Product的方法



case class是多例的，后面要跟构造参数，case object是单例的

此外，case class和其他类型完全一样，可以添加方法和字段，扩展它们；

case class最大的用处是用于模式匹配。

（3）问题扩展

模式匹配的相关问题



问题3 ★★★

Spark为什么快，Spark SQL 一定比 Hive 快吗

（1）问题分析：常见问题，但是并不好答，因为只有对两个计算框架有一定程度的理解才能准确回

答。

（2）核心问题回答

通常大家只是说Spark是基于内存计算的，速度比MapReduce要快。或者说内存中迭代计算。其实没有

抓住问题的本质，所有的计算都是发生在内存中的，MR的计算一样是发生在内存中的。

说 Spark 是基于内存的计算，正确的理解应该：与MR相比Spark积极的使用内存，减少数据的落地。

Spark比MR快主要有两个原因：

MapReduce通常需要将计算的结果（即Job的结果）写入磁盘，然后还要读取磁盘，从而导致了频

繁的磁盘IO；

MapReduce采用了多进程模型，而Spark采用了多线程模型。MapReduce的Map Task和Reduce

Task是进程级别的，而Spark Task则是基于线程模型的，就是说map、reduce Task都是 jvm 进

程，每次启动都需要重新申请资源，消耗大量时间；Spark则是通过复用线程池中的线程来减少启

动、关闭task所需要的开销；



对于以下查询：

这个查询对于MR来说也只需要一个 Job 就能完成。此时，也许 HQL 的运行时间也许比 SparkSQL 还

快，因为MR没有中间的结果数据落地。

结论：Spark 快不是绝对的，但绝大多数情况下，Spark 都比 Hadoop 计算要快，特别是在迭代计算

中。这主要得益于其对Spark积极的使用内存以及对 JVM 使用的优化。



问题4 ★★★

描述以下你对RDD的理解

（1）问题分析：对Spark基本概念的考察，对RDD同学们都有一定的了解，但是要论述的清楚、有条理

（2）核心问题回答

RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结

点上，以函数式操作集合的方式进行各种并行操作。RDD核心特点包括：

A list of partitions

A function for computing each split

A list of dependencies on other RDDs

Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

Optionally, a list of preferred locations to compute each split on (e.g. block locations for an

HDFS file)

RDD 具有容错机制，是只读的，可以执行转换操作创建新的 RDD。具体来讲，RDD 具有以下几个属

性：

只读的：只能通过转换操作生成新的 RDD

分布式：可以分布在多台机器上进行并行处理

弹性：计算过程中内存不够时它会和磁盘进行数据交换

基于内存：可以全部或部分缓存在内存中，在多次计算间重用

（3）问题扩展

（4）结合项目使用

Select month, sum(sales) from tab group by month;



几个重要的缓存级别：

MEMORY_ONLY（RDD默认的缓存级别）：将RDD 作为反序列化的对象存储 JVM 中。如果RDD不能被

内存装下，一些分区将不会被缓存，并且在需要的时候被重新计算；

MEMORY_AND_DISK（Dataset默认的缓存级别）：将RDD 作为反序列化的的对象存储在JVM 中。如

果RDD不能被与内存装下，超出的分区将被保存在硬盘上；

MEMORY_ONLY_SER（DStream默认的缓存级别）：将RDD 作为序列化的的对象进行存储（每一分区

一个字节数组）。这比将对象反序列化的空间利用率更高，读取时会比较占用CPU



repartition、coalesce都是对RDD进行从分区操作。

repartition可以减少和增加分区，coalesce只能减少分区。

从源码上看，可以认为：

即：repartition 操作一定会带来 Shuffle 。在有可能的情况下，尽量选择不产生 Shuffle 的算子。



map、flatMap都是遍历RDD中的每个数据元素。

flatMap操作可以看成是map 与 flatten操作的结合，即 flatMap 操作遍历RDD中的元素，再将元素压

平。



（3）问题扩展

能在开发中熟练的使用这些算子



问题6 ★★★

简述Spark中的缓存机制与checkpoint机制，说明两者的区别与联系

（1）问题分析：对Spark基本原理的考察

（2）核心问题回答

cache 能够让重复数据在同一个 application 中的 jobs 间共享。RDD的cache()方法其实调用的就是

persist方法，默认的缓存策略为MEMORY_ONLY。

cache与persist的目的是：将会重复多次使用的RDD进行持久化或者说缓存，避免重复计算，从而减少

应用的执行时间。

checkpoint的目的是：容错。

val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)

val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)

val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)

val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

repartition(numPartitions) = coalesce(numPartitions, shuffle = true)

即cache 和 checkpoint 的显著区别是：cache把 RDD 计算出来然后放在内存中，但是RDD 的依赖链

也不能丢掉，当某个点某个 executor 宕了，上面cache 的RDD就会丢掉，需要通过依赖链重新计算

出来；而 checkpoint 是把 RDD 保存在 HDFS中，是多副本可靠存储，所以依赖链就可以丢掉了，即斩

断了依赖。

这里值得注意的是：cache 机制是每计算出一个要 cache 的 partition 就直接将其 cache 到内存了。但

checkpoint 没有使用这种第一次计算得到就存储的方法，而是等到 job 结束后另外启动专门的 job 去

完成 checkpoint 。也就是说需要 checkpoint 的 RDD 会被计算两次。因此，在使用 checkpoint 的时

候，应该先执行 cache 操作，这样第二次运行的 job 就不用再去计算该 rdd 了，直接读取 cache 写磁

盘。



cache：主要目的是RDD数据缓存，不会截断血缘关系，使用计算过程中的数据缓存。

checkpoint：主要目的是容错，会截断依赖，checkpoint 会额外提交一次任务。

（3）问题扩展

RDD、DataSet、DStream的默认缓存级别；对各种缓存级别的理解；

缓存与检查点使用的时机，以及正确的使用姿势

（4）结合项目使用



问题7 ★★★

RDD、DataFrame、DataSet三者的区别与联系

（1）问题分析：考察Spark的基本概念

（2）核心问题回答

RDD

RDD是一个懒执行的、不可变的、可以支持Lambda表达式的并行数据集合

RDD的最大好处就是简单，API丰富、易于使用

RDD的劣势是性能限制，数据序列化、反序列化的成本高



DataFrame

与RDD类似，DataFrame也是一个分布式数据容器；

DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema；

从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友

好，门槛更低；



DataSet

是Dataframe API的一个扩展，是Spark最新的数据抽象

用户友好的API风格，既具有类型安全检查也具有Dataframe的查询优化特性

Dataset支持编解码器，当需要访问非堆上的数据时可以避免反序列化整个对象，提高了效率

样例类被用来在Dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet中

的字段名称

剩余22页未读，继续阅读

评论收藏

内容反馈

张飞的猪大数据

粉丝: 3317
资源: 41

Spark经典常见的面试题集合

大数据相关面试题Spark,Kakfa等

Spark面试题全解-2019版

大数据组件 Spark 面试题 + Spark 高频面试题

hadoop丶spark就业面试题

Spark面试2000题.pdf

大数据Spark面试题汇总

Spark面试2000题(1~6期 外加60题)

牛客大数据面试题集锦+答案，共523道，46W+字。大厂必备

Spark面试2000题系列第5期参考答案

spark考试（练习题）编程！

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

spark考试（练习题）编程题笔记！

Spark面试2000题系列第5期参考答案 (1).pdf

Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf

Spark面试2000题

spark期末复习题总结

牛客大数据面试题集锦+答案，共523道，46W+字 面试题总结一网打尽

spark面试题100道-码客搬运分享

超详细Spark思维导图，面试汇总

Scala-升级版.docx

基于spark的图书推荐系统

高分毕业设计 基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.

大数据期末课设~基于spark的气象数据处理与分析

全国职业技能大赛大数据赛项十套赛题（shtd）

大数据全套教程完整版

全国2014-2018年空气质量csv数据集文件数据

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

Spark气象监测数据分析：代码整合，包括预处理，分析，数据可视化

基于hadoop和echarts的教育大数据可视化系统

最新资源

Spark面试2000题(1~6期外加60题)

牛客大数据面试题集锦+答案，共523道，46W+字面试题总结一网打尽

高分毕业设计基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.