没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据sparkSpark SQL 2.3.0：深入浅出

Spark SQL 2.3.0：深入浅出

spark

5星 · 超过95%的资源需积分: 50 75 下载量 68 浏览量 2018-08-20 17:27:59 上传评论 1 收藏 160KB PDF 举报

温馨提示

试读

12页

Spark SQL 2.3.0：深入浅出，看了下，还行，希望对大家有帮助

资源详情

资源评论

Spark SQL 2.3.0：深浅出

Spark SQL 概述

!"#$%&!'(&)*&+"#,-.&!"#$%/*&01234.&51$&61$%)78&6)9-&*9$3,93$.2&2#9#:

;:& 集成

!"#$%&!<4&可以使󰉁&!'(&或者所熟悉的&=#9#>$#0.&+?@&在&*"#$%&程序

中查询结构化的数据。

A:& 统的数据访问

!"#$%&!<4&提供访问各种数据源的常󰉁法，包括&B)C.，+C$1，

?#$<3.9，DEF，G!DH&和&G=IF。

J:& 兼容&B)C.

!"#$%&!'(&持&B)C.'(&语法以及&B)C.&!.$=.*&和&K=>，允许您访问

现有的&B)C.&仓库。

L:& 标准连接

!"#$%&!'(&可以通过&G=IF&或&D=IF&连接外部的I@具。

Spark SQL 架构

󰶳先，!"#$%&!'(&对外提供多种访问式，我们可以通过&B)C.&B<4、

!"#$%&编程的式（!'(&或者&=#9#>$#0M=#9#*.9&+?@）、!9$.#0)78&!'(

的式提交执󰢩程序。

然后，会󰈿成个未完全解析的逻辑执󰢩计划，再集合内部&*,-.0#&信息

󰈿󰈿个逻辑执󰢩计划，最后再经过优化，最终󰈿成个优化后的逻辑执

󰢩计划，󰖳这切就是&!"#$%&!'(&的核&NN&F#9#4O*9&来完成。

最后，将优化后的逻辑执󰢩计划交由&!"#$%&P78)7.&来翻译执󰢩我们提交

的作业。

DataFrame&Dateset

DataFrame 产󰈿背景

=#9#>$#0.&并是&!"#$%&!'(&提出的，󰖳是早起在&EM?#72#*&语󰤛就已经

存在，但由于&EM?#72#*&只能满󰨤单机上的些数据处󰇹需求，法完成

些数据󰮢的任务，但是&!"#$%&!'(&作为&!"#$%&的模块，可以借助

!"#$%&的数据处󰇹性能，完全胜任这些数据󰮢的处󰇹任务，另外由于

=#9#>$#0.&早期已存在，因此在编写&!"#$%&!'(&程序的时候，疑降低

的󰲋槛。

DataFrame 概述

;:& 以的形式构成的分布式数据集，按照赋予同的名称（相当于加

上&*,-.0#&的&E==）。

A:& 可以看做是个经过优化后的个数据表（9#Q4.）。

J:& 提供类&!'(&的&+?@&如：*.4.,9M5)49.$M#88$.8#9)17M6-.$.&操作结构化

的数据。

L:& 将&EM?#72#*&处󰇹数据的经验复󰉁到分布式的数据上，应为它的

灵感来󰙵&EM?#72#*。

DataFrame 基本 API

;:& F$.#9.&=#9#>$#0.

A:& "$)79!,-.0#

J:& *-16

L:& *.4.,9

R:& 5)49.$

S:& :::

样数据（people.json）：

{"name":"张三", "age":18, "sex":"man"}

{"name":"四", "age":28, "sex":"female"}

{"name":"王五", "sex":"man"}

Spark SQL 编程：

val spark = SparkSession.builder().conf(sparkConf).getOrCreate()

// 创建DataFrame 将json件加载为DataFrame

val peopleDF = spark.read.format("json").load("/data/people.json")

// 输出Schema信息

peopleDF.printSchema()

// 展示结果---默认展示20条

peopleDF.show()

// 查询某

peopleDF.select(peopleDF("name"))

// 过滤出于20岁的

peopleDF.filter("age > 20").show()

输出结果如下：

// 输出Schema信息

root

|-- age: long (nullable = true)

|-- name: string (nullable = true)

|-- sex: string (nullable = true)

// 展示结果---默认展示20条

+----+----+------+

| age|name| sex|

+----+----+------+

| 18| 张三| man|

| 28| 四|female|

|null| 王五| man|

+----+----+------+

// 查询某

+----+

|name|

+----+

| 张三|

| 四|

| 王五|

+----+

// 过滤出于20岁的

+---+----+------+

|age|name| sex|

+---+----+------+

| 28| 四|female|

+---+----+------+

剩余11页未读，继续阅读

评论收藏

内容反馈

伍玖59

2019-03-03

很好的资料，短小精悍~！内容很多干货

Spark SQL 2.3.0：深入浅出

评论2

最新资源

Spark SQL 2.3.0：深入浅出

评论2

最新资源

相关推荐

spark-2.3.0

spark SQL应用解析

SparkSQL应用解析

SparkSql技术

sparkSQL文档

Spark_SQL大数据实例开发教程.pdf by Spark_SQL大数据实例开发教程.pdf (z-lib.org)1

Spark内核剖析+调优全套教程 附课件、代码、资料

Spark技术内幕 深入解析Spark内核架构设计与实现原理 百度云pdf 张安站

Spark 2.x Cookbook 高清原版 pdf

Spark2.3 深入浅出.pdf.zip

spark-2.3.0-bin-hadoop2.7版本.zip

spark-2.3.0-bin-hadoop2-without-hive

Could not resolve dependencies for project org.apache.hive:hive-exec:jar:2.3.0:

spark-sql入门

6.SparkSQL（中）--深入了解运行计划及调优.pdf

Spark 2.0.2 Spark 2.2 中文文档 本资源为网页，不是PDF

改进版基于Spark2.2使用SparkSQL和MySql数据库实现的诗歌浏览和自动集句工程源码

spark-sql_2.11

SparkSQL编程指南中文版

6.SparkSQL（下）--Spark实战应用.pdf

spark2.3.0.rar

spark2.3.0-hadoop2.6.tgz

spark-2.3.0 api 文档

Spark2.3.0-Hadoop2.7.4集群部署

windows10下spark2.3.0本地开发环境搭建-亲测

Spark 入门实战系列

《Spark SQL编程指南》

SparkSQLSigmod2015.pdf

Spark内核剖析+调优全套教程附课件、代码、资料

Spark技术内幕深入解析Spark内核架构设计与实现原理百度云pdf 张安站

Spark 2.0.2 Spark 2.2 中文文档本资源为网页，不是PDF