2019-icml-li-Area Attention-补充材料-rrrr1
这篇资料主要讨论的是在深度学习领域,特别是在自然语言处理中的注意力机制应用,特别是"Area Attention"。Area Attention是一种改进的注意力机制,它被应用于Transformer模型的不同版本,包括Tiny、Small和Base,以及针对英语到德语(EN-DE)和英语到法语(EN-FR)的翻译任务。 在实验细节部分,对于Token和字符级别的翻译任务,Transformer Tiny和Small的两层使用最大区域大小为5,而Transformer Base的第一层(使用Eq.3)和前两层(使用Eq.9)的最大区域大小分别为4。对于Transformer Big EN-DE,第一层使用最大区域大小为4(使用Eq.3),而对于Eq.9则使用3。Transformer Big EN-FR的前两层使用3的最大区域大小(使用Eq.3),第一层使用4(使用Eq.9)。这表明区域大小的选择会根据模型的规模和所用的等式有所不同。 对于字符级别的翻译任务,由于训练比Token级别慢得多,所以采用了与Token级别实验相同的数据集和策略,但为了减少实验时间,做了一些调整。例如,所有Transformer Big模型训练了300,000步,Transformer Big EN-DE可以使用大约32,000个字符的大批量,而所有LSTM模型使用164,000个字符的大批量训练50,000步。 此外,还对区域特征组合(Eq.9)的方法进行了评估,发现其在字符级别的翻译任务上表现与基本形式的区域注意力(Eq.3)相当。在Transformer Tiny EN-FR(BLEU=12.91)、Transformer Small EN-FR(BLEU=21.93)和EN-DE(BLEU=14.5)上,它甚至优于基本形式,并具有统计显著性。这表明当基本的区域注意力有所帮助时,区域特征组合方法可以带来进一步的提升。 作者还探索了使用归一化Sigmoid作为Transformer中多头注意力激活函数的可能性,但在Transformer Tiny和Small的快速实验中,将softmax替换为归一化Sigmoid导致了不佳的结果,这需要进一步的研究。 这篇资料提供了关于如何在Transformer模型中优化注意力机制的见解,尤其是在不同规模的模型和不同的翻译任务中如何调整参数,以及新的注意力机制如Area Attention和区域特征组合的效果。这些研究对于理解深度学习模型的优化和自然语言处理任务的性能提升具有重要意义。
![](https://csdnimg.cn/release/download_crawler_static/86324601/bg1.jpg)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![docx](https://img-home.csdnimg.cn/images/20241231044901.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![avatar](https://profile-avatar.csdnimg.cn/6f867cde8a65411d8e55ac9fd64af8f1_weixin_35749796.jpg!1)
- 粉丝: 736
- 资源: 358
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 制造业实战:如何用DeepSeek优化供应链预测(附设备维护案例).pdf
- 制造业实战:基于DeepSeek的智能质检模型私有化部署与产线数据训练指南.pdf
- 制造业极简指南:DeepSeek+传感器数据实现设备故障预警.pdf
- 证券行业:DeepSeek研报情绪分析模型的Prompt优化秘籍.pdf
- 制造业实战:DeepSeek智能质检模型部署与产线数据训练避坑手册.pdf
- 制造业私有化部署实战:DeepSeek低成本训练产线数据,实现智能质检方案落地.pdf
- 制造业效率革命:DeepSeek+工业数据分析实现故障预警90%准确率.pdf
- 制造业数字化转型:基于DeepSeek的自动化质检系统搭建全解析.pdf
- 制造业效率革命:基于DeepSeek-7B的工业质检模型训练指南(RTX3090显卡部署实录).pdf
- 制造业预测性维护:DeepSeek时序数据分析模型训练全流程.pdf
- 制造业预测性维护:DeepSeek时序数据分析实战,从传感器数据到设备寿命预测模型全链路解析.pdf
- 制造业知识库:用RAG技术构建设备维护问答系统.pdf
- 制造业知识库升级:三一重工工程师分享设备维修QA系统训练数据集构建.pdf
- 制造业知识图谱:DeepSeek在设备维修知识库中的迁移学习实践.pdf
- 制造业质量检测优化:DeepSeek视觉模型在缺陷识别中的迁移学习.pdf
- 制造业质量追溯:DeepSeek与PLC数据对接的异常检测模型构建.pdf
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)
评论0