大数据处理期末考试题库.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
本文将详细解析大数据处理期末考试题库中的Spark相关知识点,涵盖Spark的核心组件、配置、调度、RDD、广播变量、累加器、部署方式、Stage与Task、DataFrame以及Spark SQL等相关概念。 1. Spark组件:Spark主要包括四个主要组件,即Spark Streaming(流处理)、Mlib(机器学习库)、GraphX(图处理)和Spark SQL(SQL接口)。Spark R不是Spark的四大组件之一,它是一个R语言接口,用于在Spark上进行数据分析。 2. Spark服务端口:Spark自带的服务端口包括8080(Web UI)、4040(Spark JobHistory Server)和18080(YARN的Web UI),而8090不是Spark的标准端口。 3. Spark版本变更:Spark 1.4版本引入了Spark RC DataFrame,支持动态资源分配,而不是Spark SQL的Release版本。 4. Spark调度模式:Spark Job默认的调度模式是FIFO(先进先出),这意味着先提交的任务优先执行。 5. 本地模式运行:本地模式运行Spark需要满足的条件包括设置`spark.localExecution.enabled=true`、显式指定本地运行以及finalStage无父Stage,而partition默认值并不是本地模式运行的条件。 6. RDD特性:RDD(弹性分布式数据集)具有可分区、可序列化和可持久化的特性,但不可修改。 7. 广播变量:广播变量是只读的,存储在各个节点上,不支持修改,但不是存储在磁盘或HDFS。 8. 累加器:累加器支持加法操作,支持数值类型,并行计算,但不支持自定义类型。 9. 分布式部署:Spark支持standalone(独立集群)、Mesos、YARN等部署方式,而Spark on local不是错误的部署方式,而是本地运行模式。 10. Stage与Task:Stage的任务数量由RDD的分区(Partition)数量决定;窄依赖如filter操作,任务可以在父任务完成后立即开始;而宽依赖如reduceByKey操作,需要等待所有父任务完成。 11. 通信方式:Spark的Master和Worker节点通过Akka框架进行通信。 12. 存储级别:默认的存储级别是MEMORY_ONLY,表示仅存储在内存中。 13. 恢复模式:Spark.deploy.recoveryMode不支持NONE选项,支持ZooKeeper和FileSystem。 14. RDD缓存:RDD的缓存方法包括persist()和cache(),而Memory()不是缓存方法。 15. Task运行:Task是Executor上的工作单元,不是Driver program、Spark Master或Cluster manager。 16. Hive元数据:与Derby相比,MySQL支持多会话,更适合在网络环境中存储Hive的元数据。 17. DataFrame与RDD差异:DataFrame相比于RDD最大的区别在于它多了schema,提供了结构化数据处理的能力。 18. Master的ElectedLeader事件:该事件发生后,Master会通知worker,注册application,并变为ALIVE状态。 19. Spark概述:Spark是一种基于内存计算的框架,以RDD为核心,支持批处理、交互处理、流式计算等多种计算场景,同时支持HDFS、Cassandra、Hbase和S3等数据存储。 20. 大数据处理场景:大数据处理主要包括批处理、交互处理和流式计算,事务处理通常不是大数据处理的主要场景。 21. Spark Core特性:Spark Core引入了RDD,采用移动计算而非移动数据,使用线程池优化task启动开销,并使用akka作为通讯框架。 22. Spark SQL特性:Spark SQL允许开发人员处理RDD,直接查询Hive数据,使用SQL进行数据分析,并且在性能上优于Hive。 23. Spark组件:Spark的组件包括MLlib(机器学习)、GraphX(图计算)、Spark SQL和Spark Streaming。 24. Spark运行模式:Spark支持local(本地模式)、Standalone(独立集群)、Mesos、YARN和Kubernetes等运行模式。 这些知识点涵盖了Spark的基础和核心概念,对于理解和掌握Spark在大数据处理中的应用至关重要。
- 粉丝: 6870
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 学习记录111111111111111111111111
- JavaScript函数
- java-leetcode题解之Range Sum Query 2D - Mutable.java
- java-leetcode题解之Random Pick Index.java
- java-leetcode题解之Race Car.java
- java-leetcode题解之Profitable Schemes.java
- java-leetcode题解之Product of Array Exclude Itself.java
- java-leetcode题解之Prime Arrangements.java
- MCU51-51单片机
- java-leetcode题解之Power of Two.java