没有合适的资源?快使用搜索试试~ 我知道了~
DataFrame概述
资源推荐
资源详情
资源评论
D
a
t
a
F
r
a
m
e
概
述
•DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原
有的RDD转化方式更加简单易用,而且获得了更高的计算性能
•Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询
图 DataFrame与RDD的区别
•RDD是分布式的 Java对象的集合,但是,对象内部结构对于RDD而言却
是不可知的
•DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
D
a
t
a
F
r
a
m
e
的
创
建
•从Spark2.0以上版本开始,Spark使用全新的SparkSession接口来实现
其对数据加载、转换、处理等功能。
•SparkSession支持从不同的数据源加载数据,并把数据转换成
DataFrame,并且支持把DataFrame转换成SQLContext自身中的表,
然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其
他依赖于Hive的功能的支持
可以通过如下语句创建一个SparkSession对象:
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
交互式环境下,在启动进入pyspark以后,pyspark就默认提供了一个
SparkContext对象(名称为sc)和一个SparkSession对象(名称为spark)
D
a
t
a
F
r
a
m
e
的
创
建
在创建DataFrame时,可以使用spark.read操作,从不同类型的文
件中加载数据创建DataFrame,例如:
•spark.read.text("people.txt"):读取文本文件people.txt创建
DataFrame
•spark.read.json("people.json"):读取people.json文件创建
DataFrame;在读取本地文件或HDFS文件时,要注意给出正确的
文件路径
•spark.read.parquet(“people.parquet”):读取people.parquet文件
创建DataFrame
D
a
t
a
F
r
a
m
e
的
创
建
或者也可以使用如下格式的语句:
•spark.read.format("text").load("people.txt"):读取文本文件
people.json创建DataFrame;
•spark.read.format("json").load("people.json"):读取JSON文件
people.json创建DataFrame;
•spark.read.format("parquet").load("people.parquet"):读取
Parquet文件people.parquet创建DataFrame。
D
a
t
a
F
r
a
m
e
的
创
建
•在“/usr/local/spark/examples/src/main/resources/”这个目录下,这个目录下有两
个样例数据people.json和people.txt。
people.json文件的内容如下:
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}
people.txt文件的内容如下:
Michael, 29
Andy, 30
Justin, 19
一个实例
剩余20页未读,继续阅读
资源评论
gyyxinyun
- 粉丝: 2
- 资源: 0
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于一年共享单车租赁数据的关联性分析设计源码
- 基于Java与Python的SpringCloud相关知识学习与实践设计源码
- Screenshot_20241107_002727_net.csdn.csdnplus.jpg
- 基于Vue框架的疲劳驾驶瞌睡监控系统设计源码
- 11.6 显示+通信 显示+通信 显示+通信 显示+通信
- 基于Java核心技术的全栈在线商城设计源码
- 基于Python的faceai人脸识别设计源码
- 基于Scrapy和Selenium的京东商品列表与CSDN课程信息爬虫设计源码
- 基于Java语言的CoolWeather天气预报设计源码
- 基于JavaScript的在线商城ShoppingApi设计源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功