Spark调优_BigData-CSDN专栏

Spark调优

由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要做一些优化调整来减少内存占用，例如将RDD以序列化格式保存。
本文将主要涵盖两个主题：1.数据序列化（这对于优化网络性能极为重要）；2.减少内存占用以及内存调优。同时，我们也会提及其他几个比较小的主题。

1 数据序列化

序列化在任何一种分布式应用性能优化时都扮演几位重要的角色。如果序列化格式序列化过程缓慢，或者需要占用字节很多，都会大大拖慢整体的计算效率。
通常，序列化都是Spark应用优化时首先需要关注的地方。Spark着眼于便利性（允许你在计算过程中使用任何Java类型）和性能的一个平衡。Spark主要提供了两个序列化库：

Java serialization:默认情况，Spark使用Java自带的ObjectOutputStream框架来序列化对象，这样任何实现了 java.io.Serializable 接口的对象，都能被序列化。同时，你还可以通过扩展java.io.Externalizable 来控制序列化性能。Java序列化很灵活但性能较差，同时序列化后占用的

Spark调优

1 数据序列化

相关推荐

YOLOv8有效涨点专栏

华为OD机试+OJ权限（Java/JS/Py/C/C++）

YOLOv5改进有效专栏

YOLOv8改进实战

YOLOv9有效涨点专栏

芒果YOLOv7原创改进

智能家居与物联网项目实战

debezium

YOLOv8原创自研

Python.

【付费专栏】CANoe从入门到精通

【付费专栏】TC8一致性测试

★教程2:fpga入门100例

★教程1:matlab入门100例

RT-DETR有效改进专栏

芒果YOLOv8原创改进

Educoder实训

OD机试 Py/Java/JS合集（A卷+B卷+C+D卷）

华为OD机试题库2024年

倍福

华为OD面试手撕真题题库

# 第2章·通信—低阶调制解调

2024年机器学习&深度学习千例

PyTorch深度学习项目实战100例

AutoSAR入门与实战系列「持续更新ing。。。」

RK3568 Android11从开发入门到能独立开发教程

黑猫带你学：eMMC协议详解

深耕爬虫领域

刷机维修进阶教程