2019-icml-li-Area Attention-补充材料-rrrr1
这篇资料主要讨论的是在深度学习领域,特别是在自然语言处理中的注意力机制应用,特别是"Area Attention"。Area Attention是一种改进的注意力机制,它被应用于Transformer模型的不同版本,包括Tiny、Small和Base,以及针对英语到德语(EN-DE)和英语到法语(EN-FR)的翻译任务。 在实验细节部分,对于Token和字符级别的翻译任务,Transformer Tiny和Small的两层使用最大区域大小为5,而Transformer Base的第一层(使用Eq.3)和前两层(使用Eq.9)的最大区域大小分别为4。对于Transformer Big EN-DE,第一层使用最大区域大小为4(使用Eq.3),而对于Eq.9则使用3。Transformer Big EN-FR的前两层使用3的最大区域大小(使用Eq.3),第一层使用4(使用Eq.9)。这表明区域大小的选择会根据模型的规模和所用的等式有所不同。 对于字符级别的翻译任务,由于训练比Token级别慢得多,所以采用了与Token级别实验相同的数据集和策略,但为了减少实验时间,做了一些调整。例如,所有Transformer Big模型训练了300,000步,Transformer Big EN-DE可以使用大约32,000个字符的大批量,而所有LSTM模型使用164,000个字符的大批量训练50,000步。 此外,还对区域特征组合(Eq.9)的方法进行了评估,发现其在字符级别的翻译任务上表现与基本形式的区域注意力(Eq.3)相当。在Transformer Tiny EN-FR(BLEU=12.91)、Transformer Small EN-FR(BLEU=21.93)和EN-DE(BLEU=14.5)上,它甚至优于基本形式,并具有统计显著性。这表明当基本的区域注意力有所帮助时,区域特征组合方法可以带来进一步的提升。 作者还探索了使用归一化Sigmoid作为Transformer中多头注意力激活函数的可能性,但在Transformer Tiny和Small的快速实验中,将softmax替换为归一化Sigmoid导致了不佳的结果,这需要进一步的研究。 这篇资料提供了关于如何在Transformer模型中优化注意力机制的见解,尤其是在不同规模的模型和不同的翻译任务中如何调整参数,以及新的注意力机制如Area Attention和区域特征组合的效果。这些研究对于理解深度学习模型的优化和自然语言处理任务的性能提升具有重要意义。
- 粉丝: 733
- 资源: 358
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 毕设-java web-ssm-企业门户网站12.zip
- 计算机毕业实习报告+适用于计算机本科毕业
- 毕设-java web-ssm-天下陶网络商城13.zip
- 毕设-java web-ssm-物流配货网17.zip
- 毕设-java web-ssm-网上淘书吧16.zip
- 毕设-java web-ssm-网络购物中心项目源码15.zip
- 毕设-java web-ssm-新奥家电连锁网络系统20.zip
- 毕设-java web-ssm-物资管理系统项目源码18.zip
- 毕设-java web-ssm-校园管理系统源码19.zip
- 毕设-java web-ssm-芝麻开门博客网22.zip
- 美团Mario接口自动化测试框架设计-HTTP/MAPI/Thrift/Pigeon协议的支持与实践
- 毕设-java web-ssm-讯友网络相册21.zip
- 基于PLC的多层升降自动化立体车库设计12000字查重30西门子200,组态王,程序,组态
- ECharts地图-自定义28.zip
- ECharts地图-自定义26.zip
- ECharts地图-自定义29.zip
评论0