RDD、DataFrame和DataSet三者之间的关系资源-CSDN文库

需积分: 5 36 浏览量 2023-03-22 20:42:12 上传评论收藏 53KB DOCX 举报

资源推荐

资源详情

资源评论

RDD、DataFrame 和 DataSet 三者之间的关系及使用方法

1、RDD、DataFrame 和 DataSet 的定义

 Spark RDD：RDD 代表弹性分布式数据集。它是记录的只读分区集合。 RDD 是 Spark

的基本数据结构。它允许程序员以容错方式在大型集群上执行内存计算。

 Spark Dataframe：与 RDD 不同，数据组以列的形式组织起来，类似于关系数据库中的

表。它是一个不可变的分布式数据集合。 Spark 中的 DataFrame 允许开发人员将数据

结构(类型)加到分布式数据集合上，从而实现更高级别的抽象。

 Spark Dataset：Apache Spark 中的 Dataset 是 DataFrame API 的扩展，它提供了类型安

全(type-safe)，面向对象(object-oriented)的编程接口。 Dataset 利用 Catalyst optimizer

可以让用户通过类似于 sql 的表达式对数据进行查询。

2、数据格式

假设 RDD 中的两行数据长这样：

1

丽丽

23

女

2

明明

12

男

则 DataFrame 中的数据长这样：

ID：String

Name：String

Age：Int

Gender：String

1

丽丽

23

女

2

明明

12

男

则 Dataset 中的数据长这样：

Value Person[ID：String，Name：String，Age：Int，Gender：String]

Person (id=1,Name=丽丽,Age=23,Gender=女)

Person (id=2,Name=明明,Age=12,Gender=男)

或者长这样（每行数据是个 Object）：

value ：String

(1,丽丽,23,女)

(2,明明,12,男)

DataSet 包含了 DataFrame 的功能， Spark2.0 中两者统一， DataFrame 表示为

DataSet[Row]，即 DataSet 的子集。

RDD：它可以轻松有效地处理结构化和非结构化的数据。和Dataframe 和 DataSet 一样，RDD

不会推断出所获取的数据的结构类型，需要用户来指定它。

剩余11页未读，继续阅读

内容反馈

jasmine_wxy

粉丝: 11
资源: 2

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip