没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术网络安全【SparkSql篇01】SparkSql之DataFrame和DataSet1

【SparkSql篇01】SparkSql之DataFrame和DataSet1

spark

需积分: 0 1 下载量 184 浏览量 2022-08-04 16:32:17 上传评论收藏 1.1MB PDF 举报

温馨提示

试读

8页

1.手动转换 2.样例类转换（推荐） 3.通过API方式转换 1.使用内嵌的Hive 2.使用外置的Hive

资源详情

资源评论

概况能力很重要，需要锻炼

SparkSql之DataFrame和DataSet

SparkSQL概述

Spark SQL是Spark用来处理结构化数据的一个模块，

它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

Hive是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序

的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将

Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！



SparkSQL特点

Integrated

无缝整合了SQL查询和Spark编程。

Uniform Data Access

使用相同的方式连接不同的数据源

Hive Integration

在已有的仓库上直接运行SQL或者HiveQL

Standard Connectivity

通过JDBC或者ODBC来进行连接

DataFrame

在Spark中，DataFrame是一种以RDD为基础的**分布式数据集**，类似于传统数据库中的二维表

格。DataFrame与RDD的主要区别在于，**前者带有schema元信息**，即DataFrame所表示的二维

表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息，从而对藏于

DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升

运行时效率的目标。反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在

stage层面进行简单、通用的流水线优化。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

评论收藏

内容反馈

【SparkSql篇01】SparkSql之DataFrame和DataSet1

评论0

最新资源

【SparkSql篇01】SparkSql之DataFrame和DataSet1

评论0

最新资源

相关推荐

基于Spark的健康监测管理系统的数据清洗与数据分析.zip

SparkSQL 笔记 01

SparkSQ操作DataFrame，合并DataFrame

DataFrame:通过SparkSql将scala类转为DataFrame的方法

Spark dataset and dataframe 深入分析

spark rdd api dataframe 以及dataframe rdd dataset 相互转换 spark sql

pyspark-examples:Python语言中的Pyspark RDD，DataFrame和Dataset示例

RDD、DataFrame和DataSet三者之间的关系

SparkSQL通过Hive创建DataFrame

SparkSQL的数据结构DataFrame构建方式

SparkSql和DataFrame实战.docx

浅谈DataFrame和SparkSql取值误区

spark-scala-examples:该项目以Scala语言提供了Apache Spark SQL，RDD，DataFrame和Dataset示例

【SparkSql篇02】SparkSql之自定义UDF和UDAF函数1

Hadoop原理与技术SparkSQL操作实验

python的dataframe和matrix的互换方法

SparkSQL-DataFrame

python学习之路：pandas中的series和dataframe.xlsx

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

安全认证cisp教材全套

OpenVAS GVM 中文翻译补丁

2024最新：Hvv中常见的面试问题

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

全面的安全基线核查清单

CISP、NISP二级、CISE题库最新版（2024年1月更新）