没有合适的资源?快使用搜索试试~ 我知道了~
DataFrame概述
试读
21页
需积分: 0 1 下载量 105 浏览量
更新于2024-11-06
收藏 376KB PPTX 举报
DataFrame概述
D
a
t
a
F
r
a
m
e
概
述
•DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原
有的RDD转化方式更加简单易用,而且获得了更高的计算性能
•Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询
图 DataFrame与RDD的区别
•RDD是分布式的 Java对象的集合,但是,对象内部结构对于RDD而言却
是不可知的
•DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
D
a
t
a
F
r
a
m
e
的
创
建
•从Spark2.0以上版本开始,Spark使用全新的SparkSession接口来实现
其对数据加载、转换、处理等功能。
•SparkSession支持从不同的数据源加载数据,并把数据转换成
DataFrame,并且支持把DataFrame转换成SQLContext自身中的表,
然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其
他依赖于Hive的功能的支持
可以通过如下语句创建一个SparkSession对象:
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
交互式环境下,在启动进入pyspark以后,pyspark就默认提供了一个
SparkContext对象(名称为sc)和一个SparkSession对象(名称为spark)
D
a
t
a
F
r
a
m
e
的
创
建
在创建DataFrame时,可以使用spark.read操作,从不同类型的文
件中加载数据创建DataFrame,例如:
•spark.read.text("people.txt"):读取文本文件people.txt创建
DataFrame
•spark.read.json("people.json"):读取people.json文件创建
DataFrame;在读取本地文件或HDFS文件时,要注意给出正确的
文件路径
•spark.read.parquet(“people.parquet”):读取people.parquet文件
创建DataFrame
D
a
t
a
F
r
a
m
e
的
创
建
或者也可以使用如下格式的语句:
•spark.read.format("text").load("people.txt"):读取文本文件
people.json创建DataFrame;
•spark.read.format("json").load("people.json"):读取JSON文件
people.json创建DataFrame;
•spark.read.format("parquet").load("people.parquet"):读取
Parquet文件people.parquet创建DataFrame。
D
a
t
a
F
r
a
m
e
的
创
建
•在“/usr/local/spark/examples/src/main/resources/”这个目录下,这个目录下有两
个样例数据people.json和people.txt。
people.json文件的内容如下:
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}
people.txt文件的内容如下:
Michael, 29
Andy, 30
Justin, 19
一个实例
剩余20页未读,继续阅读
资源推荐
资源评论
144 浏览量
2022-12-13 上传
149 浏览量
195 浏览量
2018-06-01 上传
185 浏览量
5星 · 资源好评率100%
163 浏览量
110 浏览量
117 浏览量
195 浏览量
114 浏览量
2018-07-06 上传
2018-11-24 上传
101 浏览量
144 浏览量
2022-08-26 上传
191 浏览量
167 浏览量
107 浏览量
5星 · 资源好评率100%
101 浏览量
2018-04-28 上传
2024-07-01 上传
103 浏览量
2018-11-19 上传
2019-08-23 上传
186 浏览量
资源评论
gyyxinyun
- 粉丝: 4
- 资源: 12
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 电影购票系统-Java Web项目
- SPD-Conv-main.zip
- 使用Python和Pygame库创建新年烟花动画效果
- chapter9.zip
- 安居客Python爬虫代码.zip
- 企业可持续发展性数据集,ESG数据集,公司可持续发展性数据(可用于多种企业可持续性研究场景)
- 车辆轨迹自适应预瞄跟踪控制和自适应p反馈联合控制,自适应预苗模型和基于模糊p控制均在simulink中搭建 个人觉得跟踪效果相比模糊pid效果好很多,轨迹跟踪过程,转角控制平滑自然,车速在36到72
- 数据分析-49-客户细分-K-Means聚类分析
- TIA PORTAL V18 UPD5更新包(2024.10最新)-链接地址.txt
- 使用Python和Pygame实现圣诞节动画效果
- 自动驾驶不同工况避障模型(perscan、simulink、carsim联仿),能够避开预设的(静态)障碍物
- 100个情侣头像,唯美手绘情侣头像
- 国际象棋检测10-YOLO(v5至v9)、COCO、CreateML、Paligemma数据集合集.rar
- 2024~2025(1)Oracle数据库技术A卷-22软单、软嵌.doc
- 睡眠健康与生活方式数据集,睡眠和生活习惯关联分析(睡眠影响因素)
- 浪漫节日代码 - 爱心代码、圣诞树代码
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功