没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据spark本地使用scala操作spark示例.doc

本地使用scala操作spark示例.doc

scala

spark

需积分: 2 0 下载量 117 浏览量 2024-03-06 14:37:17 上传评论收藏 10KB DOC 举报

温馨提示

试读

1页

本地使用scala操作spark示例

资源推荐

资源详情

资源评论

本地使用scala操作spark示例

一, SparkSession的配置:

val spark = SparkSession

.builder()

.master("local[*]")

.appName("local_client_hive")

.enableHiveSupport() // 启用 Hive 支持

.config("hive.metastore.uris", "thrift://master02:9083") // 设置 Hive Metastore 的地址

.config("hive.metastore.warehouse.dir", "/user/hive/warehouse")

.config("hive.exec.scratchdir", "hdfs://master01:8020/hive/tmp")

.config("spark.debug.maxToStringFields", "1000")

.config("spark.sql.sources.partitionOverwriteMode", "dynamic") // 设置之后可以覆盖指定

分区数据

.config("hive.exec.dynamic.partition", "true") // 设置为true表示开启动态分区功能

.config("hive.exec.dynamic.partition.mode", "nonstrict") // 允许所有分区都是动态的，（

默认为strict，表示必须保证至少有一个分区是静态的）

.getOrCreate()

二, 通过dataframe向hive表中插入数据:

解决sparksql 分区覆盖问题：

背景：使用saveAsTable 造成覆盖所有数据，不是按照分区覆盖数据，需要使用insertInto

方法

1, 保证dataframe中有分区字段(SparkSession中必须添加配置:

"spark.sql.sources.partitionOverwriteMode", "dynamic", 否则执行insertInto时会把对应hive表

中全部分区删除, 只留本次插入数据的分区!!!!!!!!!!!!!!!!!! );

2, 使用insertInto插入对应表;

df.write.mode(SaveMode.Overwrite).insertInto("you use table")

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

大数据侠客

粉丝: 707
资源: 76

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

本地使用scala操作spark示例.doc

scala-2.12.14.zip&scala-2.12.11.tgz Linux版本压缩包.rar

大数据实战项目商品推荐系统源码+项目说明（Spark、Scala、MongoDB）.zip

essential-macros, 简单 Scala 宏的示例.zip

scala-2.12.11.tgz

scala-2.12.11.tar.gz

尚硅谷大数据之Scala语言核心编程.pdf

Scala Spark Bindings.pdf

Java 和 Scala 并发性基础.doc

Scala和Spark大数据分析函数式编程、数据流和机器学习

scala-2.13.8.zip

藏经阁-Just Enough Scala for Spark.pdf

使用Scala编写第一个Spark程序.txt

Mastering Apache Spark 2.x - Second Edition

spark与scala兼容的pom.xml文件

pom.xml(Idea中用于整合Scala实现Spark代码编写的配置文件)

Scala and Spark for Big Data Analytics.pdf

在浏览器上运行 Scala Scala.js.zip

scala3-3.1.3.zip

Scala中使用JSON.toJSONString报错原因分析-解决方案.docx

Scala-升级版.docx

基于spark的图书推荐系统

大数据期末课设~基于spark的气象数据处理与分析

全国职业技能大赛大数据赛项十套赛题（shtd）

大数据全套教程完整版

全国2014-2018年空气质量csv数据集文件数据

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

高分毕业设计 基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.

Spark气象监测数据分析：代码整合，包括预处理，分析，数据可视化

基于hadoop和echarts的教育大数据可视化系统

最新资源

高分毕业设计基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.