的特征,但是却无法捕捉长依赖信息,Transformer 兼具了 RNN 与 CNN 的优
点,在保留长依赖信息的同时速度也很快,其中的 attention 机制也使其具有
了类似最大池化层捕捉重要特征的能力。BERT 的特征提取器实际上就是采用
的 Transformer 的 encoder 层,Google 提供了两个 版本的 BERT ,其中
base 版本的是由 12 层的 Transformer 的 encoder 堆叠在一起,large 版本
的是由 24 层的 Transformer 的 encoder 堆叠在一起。
Transformer 模型是基于 encoder-decoder 结构的,如图 10.1-1 所示。
其中 encoder 层由 6 层图中所示的结构堆叠而成,每一个层又包括了两个子层,
第一个子层是 multi-head self-attention,第二个子层是一个全连接层,这
两个子层均采用了 residual connection 来进行连接,并且还有一层 layer
normalization 层。decoder 和 encoder 的结构类似,也是由 6 层图中所示
的结构堆叠而成,除了 encoder 提到的两层结构外,decoder 层还有一层额
外的 masked multi-head attention。
attention 是一种加权机制,针对候选值进行加权求和。Attention 能表述
为 一 个 query 与 一 个 key-value 集 合 的 映 射 关 系 , 其 中
query,keys,values 都是向量,输出值是 values 的加权求和,这个权重是
根据 query 与 key 来计算出来的。
评论0
最新资源