Spark学习笔记（三）：SparkDataFrame_spark.createDataFrame资源-CSDN文库

5星 · 超过95%的资源 8 浏览量 2021-01-20 12:38:05 上传评论收藏 223KB PDF 举报

资源详情

资源评论

资源推荐

Spark学习笔记（三）：学习笔记（三）：Spark DataFrame

系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记，方便回顾

系列博客：

Spark学习笔记（一）：Spark概述与运行原理

Spark学习笔记（二）：RDD编程基础

Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自

RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据

Spark SQL目前支持Scala、Java、Python三种语言，支持SQL-92规范

•DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了

更高的计算性能

DataFrame与RDD的区别

RDD是分布式的 Java对象的集合，但是，对象内部结构对于RDD而言却是不可知的

DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

DataFrame的创建的创建

从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对

数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能

可以通过如下语句创建一个SparkSession对象

from pyspark import SparkContext,SparkConf

from pyspark.sql import SparkSession

spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

实际上，在启动进入pyspark以后，pyspark就默认提供了一个SparkContext对象（名称为sc）和一个SparkSession对象（名

称为spark）

从文件中加载数据创建从文件中加载数据创建DataFrame

在创建DataFrame时，可以使用spark.read操作，从不同类型的文件中加载数据创建DataFrame

spark.read.text("people.txt")#读取文本文件people.txt创建DataFrame

spark.read.json("people.json")#读取people.json文件创建DataFrame

spark.read.parquet("people.parquet")#读取people.parquet文件创建DataFrame

spark.read.format("text").load("people.txt")#读取文本文件people.json创建DataFrame；

spark.read.format("json").load("people.json")#读取JSON文件people.json创建DataFrame；

spark.read.format("parquet").load("people.parquet")#读取Parquet文件people.parquet

从从RDD转换得到转换得到DataFrame

（1）利用反射机制推断RDD模式

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论10

被要求改名字

2023-06-14

对于Spark新手来说，这篇学习笔记是一份很好的入门材料。

内容反馈

weixin_38560275

粉丝: 2
资源: 916

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip