没有合适的资源?快使用搜索试试~ 我知道了~
spark-RDD的特性介绍及源码阅读必备基础
需积分: 2 0 下载量 58 浏览量
2023-04-07
17:15:44
上传
评论
收藏 337KB PDF 举报
温馨提示
试读
3页
spark-RDD的特性介绍及源码阅读必备基础
资源推荐
资源详情
资源评论
浪尖 qq 技术交流群 459898801 224209501
浪尖 qq 技术交流群 459898801 224209501
本节课主要讲:
RDD 相关的基础知识
讲解几种常见的 RDD 及其分区策略:
textFile
sequenceFile
JDBCRDD
HBaseRDD
RDD 的基础讲解
RDD 的五大特性
1 - A list of partitions
2 - A function for computing each split
3 - A list of dependencies on other RDDs
4 - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is
hash-partitioned)
5 - Optionally, a list of preferred locations to compute each split on (e.g. block
locations for
an HDFS file)
翻译成中文:
1,一个分片列表。也即 RDD 可以进行分片。
2,每个分片都有计算函数。分片是计算的最小单位
3,一个 RDD 会依赖于一系列的 RDD。并不是所有的 RDD 都是有依赖。
所有的转换操作都会生成新的 RDD,所以就形成了 RDD 的血缘关系,一个 RDD 计
算失败可以利用其血缘关系进行恢复。
4,可选项。针对 key-values 类型的 RDD 才有的分区器。
5,最佳运行位置 或者 叫偏向运行位置 或者 叫数据的本地性。
RDD 的操作
转换(Transformations)(如:map, filter, groupBy, join 等),Transformations 操作是 Lazy 的,
也 就 是 说 从 一 个 RDD 转 换 生 成 另 一 个 RDD 的 操 作 不 是 马 上 执 行 , Spark 在 遇 到
Transformations 操作时只会记录需要这样的操作,并不会去执行,需要等到有 Actions 操作
的时候才会真正启动计算过程进行计算。
操作(Actions)(如:count, collect, save 等),Actions 操作会返回结果或把 RDD 数据写到存
储系统中。Actions 是触发 Spark 启动计算的动因。
RDD 在集群的使用及工作原理
RDD 的声明周期可以分为四步:
1,创建 RDD。
RDD 创建方式
1)从 Hadoop 文件系统(如 HDFS、Hive、HBase)输入创建。
2)从父 RDD 转换得到新 RDD。
3)通过 parallelize 或 makeRDD 将单机数据创建为分布式 RDD。
4)基于 DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。
2,构建执行计划。
A),RDD 在调用转化算子和 action 算子后会构成一个 RDD 链条,也即是 RDD 的血缘
资源评论
小萝卜算子
- 粉丝: 68
- 资源: 20
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功