spark 初级考试参考题目 本资源摘要信息涵盖了 Spark 的基础知识点,包括 Spark 的四大组件、Spark 的运行模式、Stage 和 Task 的关系、Executor 的作用、软件安装命令、应用提交命令、Spark 的 API、配置文件、日志输出控制、有向无环图、计算逻辑、Spark 应用程序配置、Spark 集群节点配置、RDD 算子类型、广播变量、累加器、全局共享变量、宽依赖和窄依赖、DataFrames 数据处理等。 1. Spark 的四大组件:Spark Streaming、Mlib、Graphx 和 Spark R。其中,Spark R 不是 Spark 的四大组件之一。 2. Spark 的运行模式包括 standalone、spark on mesos 和 spark on YARN 等,spark on YARN 模式利用 Hadoop 的资源管理器。 3. Stage 的 Task 数量由 Partition 决定,Partition 是RDD 的一个子集,Spark 会将RDD 切分成多个 Partition,然后对每个 Partition 进行处理。 4. Task 运行在 Executor 上的工作单元中,Executor 是 Spark 集群中的一个组件,负责执行 Task。 5. 在 Ubuntu 系统中,软件安装命令为 apt-get install。 6. 应用提交命令为 spark-submit。 7. Spark 为 Python 开发者提供的 API 是 pyspark。 8. 与 Spark 环境相关的配置文件是 spark-env.sh。 9. 与 Spark 日志相关的配置文件是 log4j.properties。 10. 与 Spark 集群节点相关的配置文件是 slaves。 11. Spark 控制日志输出内容的方式有两种。 12. 有向无环图 (DAG) 在 Spark 中用于描述计算逻辑。 13. pyspark.SparkConf 类提供了对一个 Spark 应用程序配置的操作方法。 14. pyspark.SparkContext 类提供了应用与 Spark 交互的主入口点,表示应用与 Spark 集群的连接。 15. pyspark.Broadcast 类提供了对广播变量的操作方法。 16. RDD 算子包括两种类型:Transformations 和 Actions。 17. 当 Executor 中需要引用外部变量时,需要使用累加器或广播变量。 18. 累加器是一个全局共享变量,可以完成对信息进行聚合操作。 19. 宽依赖是指一个父 RDD 的 Partition 会被多个子 RDD 的 Partition 所使用。 20. 窄依赖是指每个父 RDD 的一个 Partition 最多被子 RDD 的一个 Partition 所使用。 21. 使用 distinct 方法可以给 DataFrames 数据去重。 22. 使用 count 方法可以给 DataFrames 数据计数。 23. 使用 groupBy 方法可以给 DataFrames 数据分组。 24. Spark SQl 是一种分布式数据集,以 RDD 为基础,与传统数据库中的二维表格相类似。
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![csv](https://img-home.csdnimg.cn/images/20210720083646.png)
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![thumb](https://img-home.csdnimg.cn/images/20210720083646.png)
![](https://csdnimg.cn/release/download_crawler_static/87811202/bg1.jpg)
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/d8db464ebbfe4bf6ad621f8c08e6fab0_m0_53300372.jpg!1)
- 粉丝: 8
- 资源: 6
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 一个基于Python编程语言和numpy及matplotlib库的简单正弦波信号发生器示例
- jdk-17-linux-x64-bin.deb
- jdk-17-linux-aarch64-bin.rpm
- 折线图、散点图、柱状图和饼图,每个示例都显示了如何显示中文
- asp.net高校网上教材征订系统的设计与实现(源码)
- asp.net动态口令认证的网上选课系统的设计与实现(源码)
- NetAssist网络调试助手
- ASP.NET公文管理系统的设计与实现(源码)
- 操作系统原理与设计Chapter 2: OS Structure
- torch-2.3.1-cp312-cp312-manylinux2014-aarch64.whl
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)