微软：我已把显存优化做到了极致，还有谁？.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

NLP

深度学习

53 浏览量 2023-10-18 18:05:45 上传评论收藏 1.29MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

微软：我已把显存优化做到了极致，还有谁？.rar （1个子文件）

微软：我已把显存优化做到了极致，还有谁？.pdf 1.49MB

2023/6/28 17:19

微软：我已把显存优化做到了极致，还有谁？

https://mp.weixin.qq.com/s/VOgNPEcDhmhMuDdy_HL0BA

1/12

微软：我已把显存优化做到了极致，还有谁？

收录于合集

#卖萌屋@深度学习与炼丹技巧

30个

文  | 王思若

大家好，我是王思若。

17年6月Google提出了Transformer架构，这篇目前Citation 4.3万的文章开启了大规模预训练

模型时代。

或者，更精确的从18年OpenAI和Google分别基于其中的Decoder和Encoder发布的大规模预训

练模型GPT1和BERT开始，各色千亿，万亿模型就在这方舞台上你方唱罢我登场。

20年千亿参数GPT-3, 21年万亿参数Switch Transformer...

巨量参数的大模型不断刷榜各项榜单。

那时候我问实验室小伙伴，你的梦想是什么？他们说训练预训练大模型是每个男孩心中的梦。

确实，这是一个有“ 一丢丢 ” 昂贵的梦想， Google用2048块TPU 训练了 Switch Transformer，

NVIDIA用4480块A100训练了Megatron(威震天)，巨大的计算资源的消耗让这些巨头都有些承

担不起。

如何加快模型训练，为万亿级参数的大模型预训练寻找最优解成为了一个热点问题。

王思若 2022-06-20 12:05 发表于北京

原创

夕小瑶科技说

2023/6/28 17:19

微软：我已把显存优化做到了极致，还有谁？

https://mp.weixin.qq.com/s/VOgNPEcDhmhMuDdy_HL0BA

2/12

而 ZeRO-Off load，作为一种新颖的异构深度学习训练技术，可在单GPU上就可以训练数十亿

参数的模型，微软自信表示ZeRO-Offload是目前的最优解：

In fact, ZeRO-Of fload can achieve high efficiency during training that is comparable

to non-offload training and it is unique optimal, meaning no other solution can

offer better memory savings without increasing the communication volume or

increasing CPU co mputation.

那我们就根据这篇文章为矛头追溯一下万亿级参数模型训练优化的漫漫探索之路。值得收藏的

干货长文！

论文标题：

ZeRO-Offload: DemocratizingBillion-Scale ModelTraining

论文链接：

https://arxiv.org/pdf/2101.06840.pdf

1.并行技术

大规模模型优化的本质就是加大并行度，分布式超大规模模型并行技术主要包括：

数据并行 Data Parallelism

模型并行 Tensor Model Parallelism

流水并行 Pipeline Model Parallelism

数据并行是最通用的并行方式，例如，PyTorch官方提供了DDP (DistributedDataParallel) 接

口便于用户使用，为每张卡分配不同的数据，多张卡通过Ring Allreduce方法汇总梯度进而对

参数进行更新。

模型并行是对Tensor进行切分，每张卡都只是对Tensor的一部分进行操作，最后合并多张卡

的结果即可。

流水线并行是按照模型Stage进行划分，将模型的不同层放到不同的计算设备上，降低单个设

备的显存消耗，从而训练更大参数的模型。

最简单的模型并行见下图：

2023/6/28 17:19

微软：我已把显存优化做到了极致，还有谁？

https://mp.weixin.qq.com/s/VOgNPEcDhmhMuDdy_HL0BA

3/12

处理一个mini-batch的数据时候只有一台设备处于计算状态，这样设备利用率太差，进一步对

mini-batch数据进行划分得到更小粒度的 micro-batch ，可以很大的提升流水线并行的并发

度。

采用梯度累加Gradient Accumulation的方式进行模型训练，得到多个micro-batch的数据训练

之后的结果进行梯度累加再去对参数进行更新，似乎看起来并行度已经足够满足要求了，但是

这种方法还有非常棘手的问题需要去解决！

每一个 micro-batch都会产生前向传播的中间结果（ activation）并占据了大量的显存，基于

此，陈天奇在《 Training Deep Nets with Sublinear Memory Cost 》中提出了

Checkpointing(重计算 ) 和 CPUoffload(CPU 卸载 ) 。

思路很简单，面对 Out of Memory, 你愿意用什么来换取减少显存的机会？红蓝药丸选择一

个?

2023/6/28 17:19

微软：我已把显存优化做到了极致，还有谁？

https://mp.weixin.qq.com/s/VOgNPEcDhmhMuDdy_HL0BA

4/12

Checkpointing选择用额外的计算开销换取显存，本质上很简单，即在前向网络中只保存标

记的少量的 Tensor(checkpointing的tensor) ，其余的会在反向传播的时候根据 checkpoing的

tensor临时重新计算一遍前向得到。

去年在蛋白质结构预测上大放异彩的 AlphaFold2 就选择了 Checkpointing方法来减少显存占

用，既然显存不够大，那就浪费点时间嘛。

CPU o ffload 选择用额外的通讯开销来换取显存，对于前向传播的中间结果(activation) ，

暂时用不到就先放到内存中(Host Memory)，等计算需要的时候再放到显存中，用大量的I/O

时间来换取显存。

2.ZeRO (ZeroRedundancy Optimizer)

其实很大的痛点是上述的各个方法解释起来如此简单，但是实现的时候对于非分布式训练专家

的普通用户却根本无从下手，为了便于用户使用，各个公司都开源了自己的解决方案。

NVIDIA 发布了5300亿的威震天Megatron，同时发布了自己的并行化框架 Megatron-LM

微软提出了ZeRO算法，并借用 Megatron-LM开发了分布式并行框架DeepSpeed

Google的MeshTensorFlow/Gpipe/Gshard

FaceBook的FSDP

百度PaddlePaddle,华为Mindspore,一流科技的Oneflow ...

其中，微软在20年提出的ZeRO算法是其中及其经典的一环，将数据和计算从GPU卸载到CPU中

来换取显存，ZeRO-Offload基于该算法进行的改进。

首先，提问一个有意思的现：对于1.5Billion模型参数的GPT-2，使用FP16进行存储只需要3GB

内存，但是在模型训练的时候，对于单卡32GB显存依然不能满足模型训练的需求。我们需要

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

微软：我已把显存优化做到了极致，还有谁？.rar

显存不够，如何训练大型神经网络？.rar

核心、显存、流处理器，谁更重要？.pdf

硬核推导Google AdaFactor：一个省显存的宝藏优化器.rar

显卡的显存是什么？.docx

显存不够，如何训练大型神经网络？.pdf

Windows 8下查看显卡标配显存大小？.docx

《MegEngine 中的动态图 Sublinear 显存优化》_MegEngine Meetup No.3.pdf

一训练就显存爆炸？Facebook 推出 8 比特优化器，两行代码拯救你的显存！ .rar

WinKawaks.1.60.rar

MATS显存坏道检测N卡专用.rar

BERT重计算：用22.5%的训练时间节省5倍的显存开销（附代码）.rar

模型训练太慢？显存不够用？这个算法让你的GPU老树开新花.rar

硬核推导Google AdaFactor：一个省显存的宝藏优化器.pdf

ArtifactTester 2( 测试显卡显存).rar

gpu-z0.7.3显卡信息检测工具.rar

SysResourceMonitor.rar

AMD显卡温度获取.rar

显存使用量查看器...............

RX560+bios合集（请务必注意显存品牌和大小以及是否需要6pin！）.rar

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

农村公交与异构无人机协同配送优化

学术海报模板+论文科研+研究生

最新资源

李飞飞自传我看见的世界 The World I see