没有合适的资源？快使用搜索试试~ 我知道了~

文库首页行业研究行业报告显存不够，如何训练大型神经网络？.pdf

显存不够，如何训练大型神经网络？.pdf

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

深度学习

0 下载量 166 浏览量 2023-08-12 22:10:54 上传评论收藏 1.79MB PDF 举报

温馨提示

试读

12页

显存不够，如何训练大型神经网络？.pdf

资源推荐

资源详情

资源评论

显存不够，如何训练⼤型神经⽹络？

3⽉3⽇

以下⽂章来源于NLPCAB ，作者李如

⼣⼩瑶的卖萌屋

NLPCAB

⼀些⾃然语⾔处理的学习经验和Paper解读

⼀只⼩狐狸带你解锁炼丹术&NLP 秘籍

前阵⼦微软开源了DeepSpeed训练框架，从测试效果来看有10倍的速度提升，⽽且对内存进⾏了各种优化，最⼤可以训练

100B(illion)参数的模型。同时发布了这个框架训练出的17B模型 Turing-NLG，处于⽬前壕赛事的顶端。

训100B的模型就先别想了（狗头），先把110M的BERT-base训好上线吧。本⽂主要介绍模型训练中速度和内存的

优化策略，针对以下⼏种情况：

1. 我明天就要答辩了，今天必须把这⼗个实验跑完

2. 我的模型有些⼤，好不容易放到⼀张卡上，训完⼀亿样本之前我就可以领N+1了

3. 我想出了⼀个绝妙的T6模型，却加载不进12GB的卡⾥，⼜拿不到今年的best paper了

（以上纯属虚构，如有雷同请赶紧看下⽂）

现实总是残酷的，其实限制⼤模型训练只有两个因素：时间和空间(=GPU=钱)，根据不同情况可以使⽤的⽅案⼤致

如下：

1. 梯度累加 Gradient Accumulation

如果只有单卡，且可以加载模型，但batch受限的话可以使⽤梯度累加，进⾏N次前向后反向更新⼀次参数，相当于

扩⼤了N倍的batch size。

正常的训练代码是这样的：

for i, (inputs, labels) in enumerate(training_set):

loss = model(inputs, labels) # 计算loss

optimizer.zero_grad() # 清空梯度

loss.backward() # 反向计算梯

度

optimizer.step() # 更新参数

加⼊梯度累加后：

for i, (inputs, labels) in enumerate(training_set):

loss = model(inputs, labels) # 计算loss

loss = loss / accumulation_steps # Normalize our loss (if average

loss.backward() # 反向计算梯度，累加到之前梯度上

if (i+1) % accumulation_steps == 0:

optimizer.step() # 更新参数

model.zero_grad() # 清空梯度

要注意的是，batch扩⼤后，如果想保持样本权重相等，学习率也要线性扩⼤或者适当调整。另外batchnorm也会受

到影响，⼩batch下的均值和⽅差肯定不如⼤batch的精准，可以调整BN中的momentum参数解决[2]。

2. 梯度检查点 Gradient Checkpointing

如果只有⼀张卡，⼜想训⼤模型，可以尝试压缩模型所占显存。

梯度检查点是⼀种以时间换空间的⽅法，通过减少保存的激活值压缩模型占⽤空间，但是在计算梯度时必须从新计

算没有存储的激活值。

细节可以参考陈天奇的Training Deep Nets with Sublinear Memory Cost[3]。

注：第⼀⾏节点是前向，第⼆⾏是反向

3. 混合精度训练 Mixed Precision Training

混合精度训练在单卡和多卡情况下都可以使⽤，通过cuda计算中的half2类型提升运算效率。⼀个half2类型中会存储

两个FP16的浮点数，在进⾏基本运算时可以同时进⾏，因此FP16的期望速度是FP32的两倍。举个Gelu的FP16优化

栗⼦：

//FP32

的

gelu

运算

float gelu(float x)

{

float cdf = 0.5f * (1.0f + tanhf((0.7978845608028654f * (x + 0.044715f * x * x * x))));

return x * cdf;

}

//FP16

的

gelu

运算

half2 gelu(half2 val)

{

half2 val_pow3 = __hmul2(val, __hmul2(val, val)); //

同时计算两个

x*x*x

float2 tmp_pow = __half22float2(val_pow3);

float2 cdf = __half22float2(val);

由于

tanhf

不⽀持

half2

类型，只能分开算

cdf.x = 0.5f * (1.0f + tanhf((0.7978845608028654f * (cdf.x + 0.044715f * tmp_pow.x))))

;

cdf.y = 0.5f * (1.0f + tanhf((0.7978845608028654f * (cdf.y + 0.044715f * tmp_pow.y))))

;

同时计算两个

x * cdf;return __hmul2(val, __float22half2_rn(cdf));

}

混合精度训练[5]不是很难理解，但要注意以下⼏点：

1. 混合精度训练不是单纯地把FP32转成FP16去计算就可以了，只⽤FP16会造成80%的精度损失

2. Loss scaling：由于梯度值都很⼩，⽤FP16会下溢，因此先⽤FP32存储loss并放⼤，使得梯度也得到放⼤，可以⽤FP16存储，更新时

变成FP32再缩放

3. 在涉及到累加操作时，⽐如BatchNorm、Softmax，FP16会上溢，需要⽤FP32保存，⼀般使⽤GPU中TensorCore的

FP16*FP16+FP32=FP32运算

整体流程：FP32权重 -> FP16权重 -> FP16计算前向 -> FP32的loss，扩⼤ -> 转为FP16 -> FP16反向计算梯度 ->

缩放为FP32的梯度更新权重

剩余11页未读，继续阅读

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

地理探险家

粉丝: 1043
资源: 5416

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

显存不够，如何训练大型神经网络？.pdf

模型训练太慢？显存不够用？这个算法让你的GPU老树开新花.pdf

《MegEngine 中的动态图 Sublinear 显存优化》_MegEngine Meetup No.3.pdf

显存不够，如何训练大型神经网络？.rar

核心、显存、流处理器，谁更重要？.pdf

显卡的显存是什么？.docx

Windows 8下查看显卡标配显存大小？.docx

微软：我已把显存优化做到了极致，还有谁？.rar

一训练就显存爆炸？Facebook 推出 8 比特优化器，两行代码拯救你的显存！ .pdf

显存速度以及显存、GPU封装形式的判别.pdf

神经网络分析.pptx

BERT重计算：用22.5%的训练时间节省5倍的显存开销（附代码）.pdf

神经网络CPU、显存分析

cpu,内存,显示卡供电图文教程.pdf

低配置电脑加速Windows7利用显存.pdf

国产飞腾1500A处理器的显存管理优化.pdf

硬核推导Google AdaFactor：一个省显存的宝藏优化器.pdf

应用动态生成树的GPU显存数据复用优化.pdf

免费使用阿里天池GPU深度学习.pdf

单显存芯片的17.8cm模拟屏控制.pdf

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

基于小波与卷积神经网络的多尺度时间序列分类.zip

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

李飞飞自传 我看见的世界 The World I see

4个亲测好用的ChatGPT4渠道

最新资源

李飞飞自传我看见的世界 The World I see