【免费】【SparkCore篇05】RDD缓存和checkpoint1资源-CSDN文库

需积分: 0 40 浏览量 2022-08-04 16:32:50 上传评论收藏 536KB PDF 举报

资源推荐

资源详情

资源评论

主动做工，一旦松懈，熵增立马开始

RDD缓存和checkpoint

RDD缓存

RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据

以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后

面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。

通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，

Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。在存储级别的末尾加上“_2”

来把持久化数据存为两份

缓存有可能丢失，或者存储存储于内存的数据由于内存不足而被删除，RDD的缓存容错机制保

证了即使缓存丢失也能保证计算的正确执行。通过基于RDD的一系列转换，丢失的数据会被重算

(因为RDD的血统)，由于RDD的各个Partition是相对独立的，因此只需要计算丢失的部分即可，

并不需要重算全部Partition。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

内容反馈

我有多作怪

粉丝: 14
资源: 299

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip