没有合适的资源？快使用搜索试试~ 我知道了~

文库首页人工智能深度学习[] - 2022-07-06 优化PyTorch速度和内存效率的技巧汇总.pdf

[] - 2022-07-06 优化PyTorch速度和内存效率的技巧汇总.pdf

kaggle

机器学习

深度学习

需积分: 0 0 下载量 110 浏览量 2023-12-11 20:10:40 上传评论收藏 618KB PDF 举报

温馨提示

试读

16页

kaggle竞赛宝典，机器学习，人工智能咨询，kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询

资源推荐

资源详情

资源评论

优化PyTorch速度和内存效率的技巧汇总

深度学习模型的训练/推理过程涉及很多步骤。在有限的时间和资源条件下，

每个迭代的速度越快，整个模型的预测性能就越快。我收集了几个PyTorch技

巧，以最大化内存使用效率和最小化运行时间。为了更好地利用这些技巧，我

们还需要理解它们如何以及为什么有效。

我首先提供一个完整的列表和一些代码片段，这样你就可以开始优化你的脚本

了。然后我一个一个地详细地研究它们。对于每个技巧，我还提供了代码片段

和注释，告诉你它是特定于设备类型(CPU/GPU)还是模型类型。

列表:

 数据加载

1、把数据放到SSD中

2、Dataloader(dataset, num_workers=4*num_GPU)

3、Dataloader(dataset, pin_memory=True)

 数据操作

4、直接在设备中创建torch.Tensor，不要在一个设备中创建再移动到另

一个设备中

5、避免CPU和GPU之间不必要的数据传输

6、使用torch.from_numpy(numpy_array)或者torch.as_tensor(ot

hers)

7、在数据传输操作可以重叠时，使用tensor.to(non_blocking=True)

8、使用PyTorch JIT将元素操作融合到单个kernel中。

 模型结构

9、在使用混合精度的FP16时，对于所有不同架构设计，设置尺寸为8的倍

数

 训练

10、将batch size设置为8的倍数，最大化GPU内存的使用

11、前向的时候使用混合精度（后向的使用不用）

12、在优化器更新权重之前，设置梯度为None，model.zero_grad(set

_to_none=True)

13、梯度积累：每隔x个batch更新一次权重，模拟大batch size的效果

 推理/验证

14、关闭梯度计算

 CNN (卷积神经网络) 特有的

15、torch.backends.cudnn.benchmark = True

16、对于4D NCHW Tensors，使用channels_last的内存格式

17、在batch normalization之前的卷积层可以去掉bias

 分布式

18、用DistributedDataParallel代替DataParallel

第7、11、12、13的代码片段

# Combining the tips No.7, 11, 12, 13: nonblocking, AMP, set

ting

# gradients as None, and larger effective batch size

model.train()

# Reset the gradients to None

optimizer.zero_grad(set_to_none=True)

scaler = GradScaler()

for i, (features, target) in enumerate(dataloader):

# these two calls are nonblocking and overlapping

features = features.to('cuda:0', non_blocking=True)

target = target.to('cuda:0', non_blocking=True)

# Forward pass with mixed precision

with torch.cuda.amp.autocast(): # autocast as a context

manager

output = model(features)

loss = criterion(output, target)

# Backward pass without mixed precision

# It's not recommended to use mixed precision for backwa

rd pass

# Because we need more precise loss

scaler.scale(loss).backward()

# Only update weights every other 2 iterations

# Effective batch size is doubled

if (i+1) % 2 == 0 or (i+1) == len(dataloader):

# scaler.step() first unscales the gradients .

# If these gradients contain infs or NaNs,

# optimizer.step() is skipped.

scaler.step(optimizer)

# If optimizer.step() was skipped,

# scaling factor is reduced by the backoff_factor

# in GradScaler()

scaler.update()

# Reset the gradients to None

optimizer.zero_grad(set_to_none=True)

指导思想

总的来说，你可以通过3个关键点来优化时间和内存使用。首先，尽可能减少i

/o(输入/输出)，使模型管道更多的用于计算，而不是用于i/o(带宽限制或内存

限制)。这样，我们就可以利用GPU及其他专用硬件来加速这些计算。第二，

尽量重叠过程，以节省时间。第三，最大限度地提高内存使用效率，节约内存

。然后，节省内存可以启用更大的batch

剩余15页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

毕业小助手

粉丝: 2231
资源: 4366

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

[] - 2022-07-06 优化PyTorch速度和内存效率的技巧汇总.pdf

Dive-into-DL-PyTorch.rar

d2l-zh-pytorch.pdf

Python库 | pytorch-doc-zh-2022.3.20.0.tar.gz

pytorch-1.0.2.tar.gz

faster-rcnn.pytorch-pytorch-1.0.zip

Deep-Learning-with-PyTorch.rar

Facial-Expression-Recognition.Pytorch-master

deep-high-resolution-net.pytorch-master.zip

Chinese-Text-Classification-Pytorch-mas

d2l-zh-pytorch(Jan-2022).pdf

Deep Learning with Pytorch.pdf

Attention_ocr.pytorch-master.zip

Algorithm-Deep-reinforcement-learning-with-pytorch.zip

PyTorch-Image-Models-Multi-Label-Classification-main.zip

Facial-Expression-Recognition.Pytorch-master_情绪识别_

PyTorch官方教程中文版.pdf

PyTorch.docs-1.3.0.zip

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

行人跌倒数据集（VOC格式）

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

YOLOV5 + 双目相机实现三维测距（新版本）

基于YOLOv8-Pose的姿态识别项目，带数据集可直接跑通的源码

全新的SOTA模型YOLOv9

YOLOV5口罩检测数据集+代码+模型 2000张标注好的数据+教学视频.zip

Deep Learning Tuning Playbook（中译版）

labelme v5.3.1 （2023年8月新版本，双击打开即用）

最新资源