没有合适的资源？快使用搜索试试~ 我知道了~

transformer.md

需积分: 12 1 下载量 190 浏览量 2020-02-17 10:51:35 上传评论收藏 20KB MD 举报

温馨提示

Transformer blocks：将seq2seq模型重的循环网络替换为了Transformer Blocks，该模块包含一个多头注意力层（Multi-head Attention Layers）以及两个position-wise feed-forward networks（FFN）。对于解码器来说，另一个多头注意力层被用于接受编码器的隐藏状态。 Add and norm：多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理，该层包含残差结构以及层归一化。 Position encoding：由于自注意力层并没有区分元素的顺序，所以一个位置编码层被用于向序列元素里添加位置信息。

资源推荐

资源评论