没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
3页
系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾 系列博客: Spark学习笔记(一):Spark概述与运行原理 Spark学习笔记(二):RDD编程基础 Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式的数据 Spark SQL目前支持Scala、Java、Python三种语言,支持SQL-92规范 •DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的
资源详情
资源评论
资源推荐
Spark学习笔记(三):学习笔记(三):Spark DataFrame
系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾
系列博客:
Spark学习笔记(一):Spark概述与运行原理
Spark学习笔记(二):RDD编程基础
Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自
RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式的数据
Spark SQL目前支持Scala、Java、Python三种语言,支持SQL-92规范
•DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了
更高的计算性能
DataFrame与RDD的区别
RDD是分布式的 Java对象的集合,但是,对象内部结构对于RDD而言却是不可知的
DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
DataFrame的创建的创建
从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对
数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能
可以通过如下语句创建一个SparkSession对象
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
实际上,在启动进入pyspark以后,pyspark就默认提供了一个SparkContext对象(名称为sc)和一个SparkSession对象(名
称为spark)
从文件中加载数据创建从文件中加载数据创建DataFrame
在创建DataFrame时,可以使用spark.read操作,从不同类型的文件中加载数据创建DataFrame
spark.read.text("people.txt")#读取文本文件people.txt创建DataFrame
spark.read.json("people.json")#读取people.json文件创建DataFrame
spark.read.parquet("people.parquet")#读取people.parquet文件创建DataFrame
spark.read.format("text").load("people.txt")#读取文本文件people.json创建DataFrame;
spark.read.format("json").load("people.json")#读取JSON文件people.json创建DataFrame;
spark.read.format("parquet").load("people.parquet")#读取Parquet文件people.parquet
从从RDD转换得到转换得到DataFrame
(1)利用反射机制推断RDD模式
weixin_38560275
- 粉丝: 2
- 资源: 916
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论10