浅谈Attention机制的理解
https://mp.weixin.qq.com/s/LvlJcomfv3Z0mVHErwMs6w
TheLongGoodbye深度学习这件小事今天
来自|知乎作者|TheLongGoodbye
链接|https://zhuanlan.zhihu.com/p/35571412
编辑|深度学习这件小事公众号
本文仅作学术分享,如有侵权,请联系删除
写在前面
Attention注意机制现在大热,很多深度学习的框架都带上了注意力机制,而且
也取得了很好的性能指标。乘着大热也来水一水文章,发表发表自己的看法。事
先说明老哥我在NLP上萌新一枚,粗糙想法不登大雅,呆萌的逻辑思维适合同为
萌新滴你。废话不多说,在本文我就浅谈下对注意机制的理解。
Attentin机制的发家史
Attention机制最早是应用于图像领域的,九几年就被提出来的思想。随着谷歌
大佬的一波研究鼓捣,2014年googlemind团队发表的这篇论文《Recurrent
ModelsofVisualAttention》让其开始火了起来,他们在RNN模型上使用了
attention机制来进行图像分类,然后取得了很好的性能。然后就开始一发不可
收拾了。。。随后Bahdanau等人在论文《NeuralMachineTranslationby
JointlyLearningtoAlignandTranslate》中,使用类似attention的机制在机
器翻译任务上将翻译和对齐同时进行,他们的工作算是第一个将attention机制
应用到NLP领域中。接着attention机制就被广泛应用在基于RNN/CNN等神经
网络模型的各种NLP任务中去了,效果看样子是真的好,仿佛谁不用谁就一点都
不fashion一样。2017年,google机器翻译团队发表的《Attentionisallyou
need》中大量使用了自注意力(self-attention)机制来学习文本表示。这篇论