没有合适的资源?快使用搜索试试~ 我知道了~
Transformer-Clinic:了解培训变压器的难度
共388个文件
py:296个
md:32个
sh:18个
需积分: 5 0 下载量 136 浏览量
2021-04-14
08:47:43
上传
评论
收藏 5.35MB ZIP 举报
温馨提示
行政 了解培训变压器的难度 通过我们的分析指导下,我们提出了广告aptive中号奥德尔在itialization(管理员),成功地稳定了先前分歧变压器培训,达到更好的性能,而无需额外引入超参数。 Admin适用于更好的半精度稳定性,并且可以重新设置为原始Transformer的参数。 我们处于早期版本的Beta中。 期待一些冒险和艰难的边缘。 目录 介绍 是什么使Transformer培训复杂化? 在我们的研究中,我们超越了梯度消失的范畴,并确定了对变形金刚训练产生实质性影响的放大作用。 具体来说,对于多层变压器中的每一层,严重依赖于其残余分支会使训练变得不稳定,而轻度依赖会导致次优性能。 依赖性和放大效应 我们的分析从观察到,前LN比后LN更健壮,而后LN通常会带来更好的性能。 如图1所示,我们发现这两个变体具有不同的层依赖模式。 通过进一步的探索,我们发现对于N层残差网络,将其参
资源推荐
资源详情
资源评论
收起资源包目录
Transformer-Clinic:了解培训变压器的难度 (388个子文件)
make.bat 805B
docutils.conf 25B
edit_dist.cpp 6KB
libbleu.cpp 3KB
dynamicconv_cuda.cpp 1KB
lightconv_cuda.cpp 1KB
dynamiconv_cpu.cpp 841B
module.cpp 791B
theme_overrides.css 192B
lightconv_cuda_kernel.cu 10KB
cuda_utils.cu 6KB
dynamicconv_cuda_kernel.cu 6KB
lightconv_cuda.cuh 2KB
dynamicconv_cuda.cuh 1KB
fairseq.gif 2.54MB
.gitignore 2KB
.gitignore 16B
LICENSE 11KB
LICENSE 1KB
convert_model.lua 3KB
convert_dictionary.lua 787B
Makefile 607B
README.md 13KB
README.md 12KB
README.md 10KB
iwslt14_de-en.md 10KB
wmt14_en-fr.md 8KB
README.md 7KB
README.md 6KB
README.md 6KB
wmt14_en-de.md 5KB
scripts.md 5KB
README.md 4KB
README.md 4KB
README.pretraining.md 4KB
README.glue.md 4KB
README.md 4KB
README.custom_classification.md 4KB
README.md 4KB
README.md 4KB
README.md 4KB
README.md 4KB
README.md 3KB
CODE_OF_CONDUCT.md 3KB
README.md 3KB
README.md 3KB
README.md 3KB
README.md 2KB
README.race.md 2KB
README.md 2KB
README.md 1KB
README.md 1KB
README.md 1KB
CONTRIBUTING.md 1KB
output_change.png 1.32MB
18_layer_dependency.png 977KB
6_layer_dependency.png 734KB
fairseq_logo.png 71KB
vggtransformer.py 36KB
transformer.py 36KB
lightconv.py 33KB
sequence_generator.py 29KB
transformer_layer.py 29KB
options.py 29KB
test_binaries.py 28KB
rerank_utils.py 27KB
fconv.py 27KB
trainer.py 24KB
lstm.py 24KB
levenshtein_transformer.py 23KB
fconv_self_att.py 23KB
test_noising.py 19KB
semisupervised_translation.py 19KB
asr_test_base.py 19KB
wav2vec.py 18KB
multilingual_translation.py 16KB
indexed_dataset.py 16KB
fairseq_model.py 15KB
masked_lm.py 15KB
nonautoregressive_transformer.py 15KB
test_sequence_generator.py 15KB
model.py 14KB
transformer_lm.py 14KB
fp16_optimizer.py 14KB
checkpoint_utils.py 14KB
adam.py 14KB
utils.py 14KB
preprocess.py 13KB
multihead_attention.py 13KB
rerank_generate.py 13KB
wsc_task.py 13KB
train.py 13KB
block_pair_dataset.py 13KB
rerank.py 12KB
masked_lm_dataset.py 12KB
fairseq_task.py 12KB
multilingual_masked_lm.py 12KB
noising.py 12KB
wer_utils.py 12KB
language_pair_dataset.py 11KB
共 388 条
- 1
- 2
- 3
- 4
资源评论
种阳台
- 粉丝: 14
- 资源: 4512
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IMG_0694.GIF
- 基于图像的三维模型重建C++源代码+文档说明(高分课程设计)
- 基于聚焦法的工件立体测量方案,根据数据进行三维重建 使用HALCON处理图像,MATLAB拟合数据+源代码+数据集+效果图
- 锄战三国村 修改:货币使用不减 v1.10(2) 原创 (中文).apk
- 基于python实现的单目双目视觉三维重建+源代码+图像图片(高分课程设计)
- 基于C+++OPENCV的全景图像拼接源码(课程设计)
- 基于Python+OpenCV对多张图片进行全景图像拼接,消除鬼影,消除裂缝+源代码+文档说明+界面截图(高分课程设计)
- 基于C++实现的全景图像拼接源码(课程设计)
- 基于SIFT特征点提取和RASIC算法实现全景图像拼接python源码+文档说明+界面截图+详细注释(95分以上课程大作业)
- 基于matlab实现眼部判别的疲劳检测系统+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功