没有合适的资源?快使用搜索试试~ 我知道了~
NVIDIA开源面向精简混合精度和分布式训练的Pytorch扩展-python
共341个文件
py:196个
cu:41个
h:25个
需积分: 38 1 下载量 147 浏览量
2021-06-18
18:06:57
上传
评论
收藏 760KB ZIP 举报
温馨提示
NVIDIA开源面向精简混合精度和分布式训练的Pytorch扩展 简介 此存储库包含 NVIDIA 维护的实用程序,用于简化 Pytorch 中的混合精度和分布式训练。 这里的一些代码最终会被包含在上游 Pytorch 中。 Apex 的目的是尽快向用户提供最新的实用程序。 完整的 API 文档:https://nvidia.github.io/apex GTC 2019 和 Pytorch DevCon 2019 幻灯片 内容 1. Amp:自动混合精度 apex.amp 是一种工具,可通过仅更改 3 行脚本来启用混合精度训练。 通过向 amp.initialize 提供不同的标志,用户可以轻松地试验不同的纯和混合精度训练模式。 介绍 Amp 的网络研讨会(标志 cast_batchnorm 已重命名为 keep_batchnorm_fp32)。 API 文档 全面的 Imagenet 示例 DCGAN 示例即将推出......转向新的 Amp API(适用于已弃用的“Amp”和“FP16_Optimizer”API 的用户) 2. 分布式训练 apex.parallel
资源推荐
资源详情
资源评论
收起资源包目录
NVIDIA开源面向精简混合精度和分布式训练的Pytorch扩展-python (341个子文件)
bottleneck.cpp 66KB
encdec_multihead_attn_norm_add.cpp 12KB
fmha_api.cpp 11KB
self_multihead_attn_norm_add.cpp 10KB
encdec_multihead_attn.cpp 9KB
self_multihead_attn_bias_additive_mask.cpp 7KB
self_multihead_attn_bias.cpp 7KB
interface.cpp 7KB
self_multihead_attn.cpp 7KB
layer_norm_cuda.cpp 6KB
syncbn.cpp 6KB
fused_adam_cuda.cpp 5KB
mlp.cpp 5KB
masked_softmax_dropout.cpp 4KB
amp_C_frontend.cpp 4KB
additive_masked_softmax_dropout.cpp 4KB
ln_api.cpp 3KB
transducer_loss.cpp 2KB
transducer_joint.cpp 2KB
interface.cpp 2KB
multi_tensor_distopt_lamb.cpp 1KB
flatten_unflatten.cpp 584B
fused_lamb_cuda.cpp 562B
multi_tensor_distopt_adam.cpp 560B
pytorch_theme.css 2KB
welford.cu 53KB
mlp_cuda.cu 51KB
fused_adam_cuda_kernel.cu 34KB
encdec_multihead_attn_norm_add_cuda.cu 30KB
transducer_joint_kernel.cu 27KB
transducer_loss_kernel.cu 26KB
self_multihead_attn_norm_add_cuda.cu 25KB
encdec_multihead_attn_cuda.cu 25KB
layer_norm_cuda_kernel.cu 24KB
xentropy_kernel.cu 24KB
self_multihead_attn_bias_cuda.cu 21KB
self_multihead_attn_cuda.cu 20KB
self_multihead_attn_bias_additive_mask_cuda.cu 20KB
ln_bwd_semi_cuda_kernel.cu 16KB
multi_tensor_distopt_lamb_kernel.cu 15KB
multi_tensor_l2norm_kernel.cu 13KB
multi_tensor_lamb.cu 12KB
batch_norm_add_relu.cu 12KB
batch_norm.cu 11KB
fused_lamb_cuda_kernel.cu 8KB
multi_tensor_sgd_kernel.cu 8KB
multi_tensor_distopt_adam_kernel.cu 7KB
masked_softmax_dropout_cuda.cu 6KB
ln_fwd_cuda_kernel.cu 5KB
multi_tensor_novograd.cu 5KB
additive_masked_softmax_dropout_cuda.cu 5KB
multi_tensor_axpby_kernel.cu 5KB
multi_tensor_adam.cu 4KB
multi_tensor_lamb_stage_1.cu 4KB
multi_tensor_scale_kernel.cu 4KB
ipc.cu 4KB
multi_tensor_lamb_stage_2.cu 3KB
fmha_dgrad_fp16_512_64_kernel.sm80.cu 3KB
fmha_dgrad_fp16_128_64_kernel.sm80.cu 3KB
fmha_dgrad_fp16_256_64_kernel.sm80.cu 3KB
fmha_dgrad_fp16_384_64_kernel.sm80.cu 3KB
fmha_fprop_fp16_256_64_kernel.sm80.cu 3KB
fmha_fprop_fp16_128_64_kernel.sm80.cu 3KB
fmha_fprop_fp16_512_64_kernel.sm80.cu 3KB
fmha_fprop_fp16_384_64_kernel.sm80.cu 3KB
multi_tensor_adagrad.cu 3KB
multi_tensor_apply.cuh 5KB
utils.cuh 3KB
Dockerfile 760B
.gitignore 51B
.gitignore 31B
.gitmodules 306B
softmax.h 116KB
nhwc_batch_norm_kernel.h 109KB
smem_tile.h 50KB
strided_batched_gemm.h 34KB
utils.h 31KB
batch_norm.h 28KB
batch_norm_add_relu.h 26KB
fmha_dgrad_kernel_1xN_reload.h 24KB
layer_norm.h 23KB
softmax.h 18KB
gmem_tile.h 16KB
fmha_fprop_kernel_1xN.h 13KB
fmha_fprop_kernel_1xN_reload_v.h 13KB
dropout.h 12KB
gemm.h 12KB
kernel_traits.h 5KB
type_shim.h 5KB
fmha_utils.h 4KB
fmha_kernel.h 4KB
fmha.h 3KB
mask.h 3KB
philox.h 3KB
ln_kernel_traits.h 910B
cuda_utils.h 288B
compat.h 140B
layout.html 1019B
LICENSE 1KB
Makefile 947B
共 341 条
- 1
- 2
- 3
- 4
资源评论
善音
- 粉丝: 21
- 资源: 4611
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功