Transformer原理到实践详解_transformer资源-CSDN文库

共1个文件

pdf：1个

需积分: 2 4 浏览量 2023-08-03 17:02:14 上传评论 1 收藏 2.08MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

Transformer原理到实践详解.zip （1个子文件）

Transformer原理到实践详解.pdf 2.51MB

Transformer原理到实践详解

-Transformer：⼀种完全基于Attention机制来加速深度学习训练过程的算法模型；

Transformer最⼤的优势在于其在并⾏化处理上做出的贡献。

Transformer在Goole的⼀篇论⽂Attention is All You Need被提出，为了⽅便实现调⽤Transformer Google还开源了⼀个第三⽅库，

基于TensorFlow的Tensor2Tensor，⼀个NLP的社区研究者贡献了⼀个Torch版本的⽀持：guide annotating the paper with PyTorch

implementation。

⽹络结构

transformer由2个部分组成，⼀个Encoders和⼀个Decoders。

(如下实例，机器翻译：输⼊⼀种语⾔，经transformer之后输出其英⽂表⽰)

每个Encoders中分别由6个Encoder组成，⽽每个Decoders中同样也是由6个Decoder组成。

对于Encoders中的每⼀个Encoder，他们结构都是相同的，但是并不会共享权值。每层Encoder有2个部分组成，如下图：

每个Encoder的输⼊⾸先会通过⼀个self-attention层，通过self-attention层帮助Endcoder在编码单词的过程中查看输⼊序列中的其他单

词。

Self-attention的输出会被传⼊⼀个全连接的前馈神经⽹络，每个encoder的前馈神经⽹络参数个数都是相同的，但是他们的作⽤是独⽴

的。

每个Decoder也同样具有这样的层级结构，但是在这之间有⼀个Attention层，帮助Decoder专注于与输⼊句⼦中对应的那个单词。

数据流动

以词嵌⼊为例，观察从输⼊到输出的过程中这些数据在各个⽹络结构中的流动。词嵌⼊简单理解就是词语在计算机中的表⽰形式，具体可参

见：

将每个单词编码为⼀个512维度的向量，我们⽤上⾯这张简短的图形来表⽰这些向量。词嵌⼊的过程只发⽣在最底层的Encoder。但是对于

所有的Encoder来说，你都可以按下图来理解。输⼊（⼀个向量的列表，每个向量的维度为512维，在最底层Encoder作⽤是词嵌⼊，其他

层就是其前⼀层的output）。另外这个列表的⼤⼩和词向量维度的⼤⼩都是可以设置的超参数。⼀般情况下，它是我们训练数据集中最长的

句⼦的长度。

在每个单词进⼊Self-Attention层后都会有⼀个对应的输出。Self-Attention层中的输⼊和输出是存在依赖关系的，⽽前馈层则没有依赖，

所以在前馈层，我们可以⽤到并⾏化来提升速率。

Transformer中的每个Encoder接收⼀个512维度的向量的列表作为输⼊，然后将这些向量传递到‘self-attention’层，self-attention

层产⽣⼀个等量512维向量列表，然后进⼊前馈神经⽹络，前馈神经⽹络的输出也为⼀个512维度的列表，然后将输出向上传递到下⼀个

encoder。

self-attention

假设下⾯的句⼦就是我们需要翻译的输⼊句：

”The animal didn’t cross the street because it was too tired””The animal didn’t cross the street because it was too tired”

理这个问题其实并不容易。self attention的出现就是为了解决这个问题，通过self attention，我们能将“it”与“animal”联系起来。

当模型处理单词的时候，self attention层可以通过当前单词去查看其输⼊序列中的其他单词，以此来寻找编码这个单词更好的线索。

如果你熟悉RNNs，那么你可以回想⼀下，RNN是怎么处理先前单词(向量）与当前单词(向量）的关系的？RNN是怎么计算他的hidden

state的。self-attention正是transformer中设计的⼀种通过其上下⽂来理解当前词的⼀种办法。你会很容易发现…相较于

RNNs，transformer具有更好的并⾏性。

如上图，是我们第五层Encoder针对单词’it’的图⽰，可以发现，我们的Encoder在编码单词‘it’时，部分注意⼒机制集中在

了‘animl’上，这部分的注意⼒会通过权值传递的⽅式影响到’it’的编码。

self attention计算

1、计算self attention的第⼀步是从每个Encoder的输⼊向量上创建3个向量（在这个情况下，对每个单词做词嵌⼊）。所以，对于每个单

词，我们创建⼀个Query向量，⼀个Key向量和⼀个Value向量。这些向量是通过词嵌⼊乘以我们训练过程中创建的3个训练矩阵⽽产⽣的。

我们将X1乘以W^{Q}的权重矩阵得到新向量q1，q1既是“query”的向量。同理，最终我们可以对输⼊句⼦的每个单词创

建“query”，“key”，“value”的新向量表⽰形式。

2、计算self attention的第⼆步是计算得分。以上图为例，假设我们在计算第⼀个单词“thinking”的self attention。我们需要根据这个

单词对输⼊句⼦的每个单词进⾏评分。当我们在某个位置编码单词时，分数决定了对输⼊句⼦的其他单词的关照程度。

通过将query向量和key向量做点积来对相应的单词打分。所以，如果我们处理开始位置的的self attention，则第⼀个分数为q1和k1的点

积，第⼆个分数为q2和k2的点积。如下图

内容反馈

Rocky006

粉丝: 5846
资源: 1332

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip