没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
拉丹 自适应学习率的方差及超越 我们处于早期版本的Beta中。 期待一些冒险和艰难的边缘。 目录 介绍 如果热身是答案,那么问题是什么? Adam的学习速度预热是在某些情况下(或eps调整)进行稳定训练的必备技巧。 但是基本机制尚不清楚。 在我们的研究中,我们提出一个根本原因是自适应学习率的巨大差异,并提供理论和经验支持证据。 除了解释为什么要使用预热之外,我们还提出RAdam ,这是Adam的理论上合理的变体。 动机 如图1所示,我们假定梯度遵循正态分布(均值:\ mu,方差:1)。 模拟了自适应学习率的方差,并将其绘制在图1中(蓝色曲线)。 我们观察到,在训练的早期阶段,自适应学习率具有很大的差异。 将变压器用于NMT时,通常需要进行预热阶段以避免收敛问题(例如,图2中的Adam-vanilla收敛于500 PPL左右,而Adam-warmup成功收敛于10 PPL以下)。 在进
资源推荐
资源详情
资源评论
收起资源包目录
RAdam-master.zip (61个子文件)
RAdam-master
.travis.yml 120B
img
variance.png 226KB
LICENSE 11KB
radam
radam.py 10KB
__init__.py 44B
nmt
my_module
poly_schedule.py 2KB
radam.py 6KB
novograd.py 5KB
__init__.py 126B
linear_schedule.py 3KB
adam2.py 6KB
recipes.md 4KB
README.md 244B
average_checkpoints.py 5KB
eval.sh 841B
setup.py 857B
.gitignore 4KB
README.md 11KB
language-model
pre_word_ada
gene_map.py 1KB
encode_data2folder.py 3KB
recipes.md 901B
eval_1bw.py 4KB
README.md 305B
train_1bw.py 8KB
model_word_ada
resnet.py 2KB
densenet.py 2KB
ldnet.py 2KB
utils.py 2KB
LM.py 2KB
adaptive.py 3KB
dataset.py 5KB
radam.py 5KB
bnlstm.py 8KB
ddnet.py 2KB
basic.py 2KB
cifar_imagenet
models
cifar
resnet.py 5KB
densenet.py 5KB
resnext.py 5KB
wrn.py 4KB
__init__.py 2KB
alexnet.py 1KB
vgg.py 4KB
preresnet.py 5KB
imagenet
resnext.py 6KB
__init__.py 63B
__init__.py 0B
cifar.py 15KB
LICENSE 1KB
imagenet.py 14KB
recipes.md 7KB
.gitignore 20B
fourstep.sh 874B
README.md 331B
utils
eval.py 523B
visualize.py 4KB
images
cifar.png 337KB
imagenet.png 45KB
logger.py 4KB
misc.py 2KB
radam.py 10KB
__init__.py 242B
共 61 条
- 1
资源评论
观察社
- 粉丝: 21
- 资源: 4689
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现文档+程序边缘计算任务卸载与资源调度的算法,是论文的源代码,具有价值.rar
- 什么是学生成绩管理系统c++以及学习学生成绩管理系统的意义
- 什么是词向量-以及学习关于了解词向量的意义
- 什么是mybatis动态sql以及学习mybatis动态sql的意义
- 华为数据治理方法论,包括:数据治理框架、数据治理组织架构、数据治理度量评估体系以及华为数据治理案例分享
- 基于matlab实现对表面肌电信号进行归一化处理,并对归一化后的图形显示 .rar
- 基于matlab实现单级倒立摆的 T-S 模型 包括 LMI 程序源码
- 图书管理系统(struts+hibernate+spring+ext).rar
- 基于matlab实现此压缩包包含语音信号处理中的语音变声代码加音频.rar
- STM32使用PWM驱动舵机并通过OLED显示
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功