没有合适的资源?快使用搜索试试~ 我知道了~
Spark源码系列(二)RDD详解
5星 · 超过95%的资源 2 下载量 89 浏览量
2021-01-30
14:09:51
上传
评论
收藏 124KB PDF 举报
温馨提示
试读
6页
上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是ResilientDistributedDataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。2、有一个函数计算每一个分片,这里指的是下面会提到的compute函数。3、对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖,但并不是所有的RDD都有依赖。4、可选:key-value型的RDD是根据哈希来分区的,类似于mapreduce当中
资源推荐
资源评论
weixin_38530536
- 粉丝: 4
- 资源: 971
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页