T
r
a
ns
f
orm
e
r
哪
家
强
?
G
oo
gle
爸爸
辨
优
良
!
⽂
:
Zilong
2017
年
Attention is all you need
横
空
出
世,
Transformer
横
扫
机
器
翻
译
,
隔
年
诞
⽣
的
BERT
建
⽴
在
层
层
堆
叠
的
Transformer
之
上,
凭
借
这
个
平平
⽆
奇
的
Attention
点
乘
模
型
⼀
举
刷
新
了
各
种
沉
积
许
久
的
榜
单
,
⼀
夜
间
仿佛
不
懂
Transformer
,
都
不
敢
说
⾃
⼰
是
NLPer
了
,
曾
经
最
⼼
爱
的
RNN
也
瞬
间
黯
然
失
⾊
。
Transformer
有
着
简
易
的的
结
构
、
SOTA
的
能
⼒
,
搭
配
CUDA
矩
阵
并
⾏
运
算
,不
仅
效
果
上
⽐
RNN
胜
出
⼀
筹
,
在
运
算
效
率
上
也
遥遥
领
先
。
于
是
,
⽆数
论
⽂
纷
⾄
沓
来
,
留
给
RNN
的
时
间
已
经
不
多
了
。
然
⽽
,
Transformer
⼤
厦
上
空
依
旧
有
着
⼀
朵
乌云
,
让
NLPer
耿耿
于
怀
,
Transformer
的
核
⼼
结
构
——self
attention
归
根
到
底
依
旧
是
⼆
维
矩
阵
运
算
,
纵
使
抛
弃
了
RNN
中
时
序
运
算
,
得
到
了
极
⼤
的
运
算
效
率
的
提
升
,
但
是
计
算
机
系
本
科
⽣
都
知
道
,
矩
阵
运
算
的
复
杂
度
是
丑
陋
的
。
当
Transformer
遇
到
⽂
档
分
类
或
者
篇章
理
解
之
类
的
任
务
,
随
着
⽂
档
⻓
度
增
⻓
,
计
算
效
率
愈
发
难
以
忍
受
。
为了
解
决
运
算
复
杂
度
的
问题
,
NLPer
提
出
了
各
种
改
进
的
版
本
,
xformer
家
族⽇
渐
壮⼤
,⼀个个
都
声
称
⾃
⼰
解
决
了
Transformer
的
核
⼼
问题
,
试
图
挑
战
transformer
⽼
⼤
哥
的
地
位
。
其
中
不
乏佼佼
者
如
:
Reformer ( https://arxiv.org/abs/2001.04451 )
:
通过
Locality Sensitive Hashing
类
似
于
桶
排
序
,
将
相
似
向
量
归
为
⼀
类
,
计
算
同
类
向
量
之
间
的
点
积
,
复
杂
度
为
。
Linformer ( https://arxiv.org/abs/2006.04768 )
:
认
为
注
意
⼒
机
制
是
低
秩
,
信
息
集
中
在
前
k
⼤
的
奇
异
值
中
,
通过
线
性
映
射将
复
杂
度
降
为
,
当
⾜
够
⼩
,
模
型
接
近
线
性
时
间
。
Z
il
on
g
2020-12-11
17:00
原
创
夕
⼩
瑶
的
卖
萌
屋