1.1什么是RDD(1)RDD(ResilientDistributedDataset)弹性分布式数据集,它是Spark的基本数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。(2)具有数据流模型的特点:自动容错、位置感知性调度、可伸缩性。(3)查询速度快:在执行多个查询时,可以显示的将工作集缓存到内存中,后续的查询能够重用缓存的工作集。1.2RDD的属性打开Spark源代码,源码的注释中对RDD的描述如下图。(1)Alistofpartitions一系列的分区(2)Afunctionforcomputingeachsplit每个函数作用于每一个分区(3)Alistofdepen
- 1
- 2
前往页