【免费】3.dataframe使用1资源-CSDN文库

spark

需积分: 0 113 浏览量 2022-08-03 13:45:38 上传评论收藏 1.54MB PDF 举报

资源详情

资源评论

资源推荐

2022/4/27 03_dataframe

huaxiaozhuan.com/工具/spark/chapters/03_dataframe.html 1/38

Spark SQL

一、概述

spark sql

是用于操作结构化数据的程序包

通过 spark sql

，可以使用 SQL

或者

HQL

来查询数据，查询结果以 Dataset/DataFrame

的形式返回

它支持多种数据源，如 Hive

表、 Parquet

以及

JSON

等

它支持开发者将 SQL

和传统的 RDD

变成相结合

Dataset ：是一个分布式的数据集合

它是 Spark 1.6

中被添加的新接口

它提供了 RDD 的优点与 Spark SQL

执行引擎的优点

它在 Scala

和 Java

中是可用的。 Python

不支持 Dataset API 。但是由于 Python

的动态特性，许

多 DataSet API

的优点已经可用

DataFrame ：是一个 Dataset

组成的指定列。

它的概念等价于一个关系型数据库中的表

在 Scala/Python

中， DataFrame

由 DataSet

中的

RowS

(

多个 Row

)

来表示。

在 spark 2.0

之后， SQLContext

被

SparkSession

取代。

二、

SparkSession

spark sql

中所有功能的入口点是 SparkSession

类。它可以用于创建 DataFrame 、注册 DataFrame 为

table 、在 table

上执行 SQL 、缓存 table 、读写文件等等。

要创建一个 SparkSession ，仅仅使用 SparkSession.builder

即可：

Builder

用于创建 SparkSession ，它的方法有（这些方法都返回 self

）：

.appName(name) ：给程序设定一个名字，用于在 Spark web UI

中展示。如果未指定，则 spark

会随

机生成一个。

name ：一个字符串，表示程序的名字

.config(key=None,value=None,conf=None) ：配置程序。这里设定的配置会直接传递给 SparkConf

和

SparkSession 各自的配置。

key ：一个字符串，表示配置名

value ：对应配置的值

conf ：一个 SparkConf

实例

有两种设置方式：

from pyspark.sql import SparkSession

spark_session = SparkSession \

.builder \

.appName("Python Spark SQL basic example") \

.config("spark.some.config.option", "some-value") \

.getOrCreate()

2022/4/27 03_dataframe

huaxiaozhuan.com/工具/spark/chapters/03_dataframe.html 2/38

通过键值对设置：

通过已有的 SparkConf

设置：

.enableHiveSupport() ：开启 Hive

支持。（ spark 2.0

的新接口）

.master(master) ：设置 spark master URL 。如：

master=local ：表示单机本地运行

master=local[4] ：表示单机本地

核运行

master=spark://master:7077 ：表示在一个 spark standalone cluster

上运行

.getOrCreate() ：返回一个已有的 SparkSession

实例；如果没有则基于当前 builder

的配置，创建

一个新的 SparkSession

实例

该方法首先检测是否有一个有效的全局默认 SparkSession

实例。如果有，则返回它；如果没有，

则创建一个作为全局默认 SparkSession 实例，并返回它

如果已有一个有效的全局默认 SparkSession

实例，则当前 builder 的配置将应用到该实例上

2.1

属性

.builder = <pyspark.sql.session.Builder object at 0x7f51f134a110> ：一个 Builder 实例

.catalog ：一个接口。用户通过它来 create、drop、alter、query 底层的数据库、 table

以及

function

等

可以通过 SparkSession.catalog.cacheTable('tableName') ，

来缓存表；通过

SparkSession.catalog.uncacheTable('tableName')

来从缓存中删除该表。

.conf ： spark

的运行时配置接口。通过它，你可以获取、设置 spark、hadoop

的配置。

.read ：返回一个 DataFrameReader ，用于从外部存储系统中读取数据并返回 DataFrame

.readStream ：返回一个 DataStreamReader ，用于将输入数据流视作一个 DataFrame

来读取

.sparkContext ：返回底层的 SparkContext

.streams ：返回一个 StreamingQueryManager 对象，它管理当前上下文的所有活动的 StreamingQuery

.udf ：返回一个 UDFRegistration ，用于 UDF

.version ：返回当前应用的 spark

版本

2.2

方法

.createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True) ：从 RDD

、一个列

表、或者 pandas.DataFrame

中创建一个 DataFrame

参数：

data ：输入数据。可以为一个 RDD 、一个列表、或者一个 pandas.DataFrame

schema ：给出了 DataFrame

的结构化信息。可以为：

SparkSession.builder.config("spark.some.config.option", "some-value")

SparkSession.builder.config(conf=SparkConf())

剩余37页未读，继续阅读

评论收藏

内容反馈

十二.12

粉丝: 35
资源: 276

3.dataframe使用1

评论0

最新资源

3.dataframe使用1

评论0

dataframe

dataframe-examples

dataframe学习资料

dataframe-example

c++ dataframe 对接mysql，使用log4c++

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

Apress.PySpark.SQL.Recipes.With.HiveQL.Dataframe.and.Graphframes

pandas.DataFrame 索引

Python数据分析实践：透视表和重塑dataframenew.pdf

dataframe-go:Go的数据框

Spark dataset and dataframe 深入分析

使用pandas对两个dataframe进行join的实例

python中使用iterrows()对dataframe进行遍历的实例

python中pandas.DataFrame排除特定行方法示例

pandas通过字典生成dataframe的方法步骤

python基础教程：pandas DataFrame 行列索引及值的获取的方法

python中pandas.DataFrame的简单操作方法（创建、索引、增添与删除）

dta0502#douban-top250#Pandas DataFrame数据写入文件和数据库1

pandas string转dataframe的方法

python pandas dataframe 去重函数的具体使用

anatomy_of_spark_dataframe_api

Json_to_dataframe-API-call-

pandas修改DataFrame列名的方法

python实现在pandas.DataFrame添加一行

Python pandas.DataFrame调整列顺序及修改index名的方法

pandas.dataframe中根据条件获取元素所在的位置方法(索引)

python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现

最新资源