⾕
歌
:⼀
篇
论
⽂
,
让
研
究
者
吃
我
三
份
安
利
⽂
|
⽩
鹡鸰
想
⽤
Transformer
做
CV
编
|
⼩
轶
想
⽤
Transformer
做
NLP
前
⾔
计
算
机
视觉
、
机
器
学
习
,
这
两个
词
会
让
你
想
到
什么
?
相
信
绝
⼤多
数
⼈
第
⼀
反
应
都
是
CNN
,
⽽
持
续
关
注
这
些
领
域
发
展
的
⼈
,
则
会
进
⼀
步
联
想
到
近
⼏
年
⼤
⽕
的
Transformer
,
它
不
仅
在
⾃
然
语⾔
相
关
任
务
上
表
现
优
秀
,
在图
像
领
域
同
样
取
得
了
相
当
不
错
的
效
果
。
去
年
10
⽉
份
Google
推
出
的
Vision Transformer (ViT)
,
就
在图
像
识
别
任
务
上
⽤
更
⾼
的
学
习
效
率
,
达
到
了
不
亚于
ResNet
的
精
度
。
当
⼀个
模
型
性
能
达
到
SOTA
之
后
,
很
⾃
然
地
,
⼈们
就
会
想
去
探
究
它
的
原
理
,
并
和
先前
的
模
型
进
⾏
⽐
较
。
今
年
上
半
年
,
普林
斯
顿
⼤
学就
从
错
误
⼀
致
性
的
⻆
度
⽐
较
了
ViT
与
ResNet
,
最
终
发
现
ViT
更
容
易
错
判
形
状
相
似
的
物
体
,
⽽
ResNet
的
识
别
更
依
赖
纹
理
信
息
[1]
。
最
近
,
Google
则
对
⽹络
本
身
进
⾏
了
进
⼀
步
的
探
索
,
试
图
通过追
踪
模
型
学
习
表
征
的
过
程
,
确
认
ViT
和
ResNet
在
处
理
图
像
的
原
理
上
是
否
⼀
致
。
论
⽂
题
⽬
:
Do Vision Transformers See Like Convolutional Neural Networks?
⽩
鹡鸰
2021-09-06
18:05
原
创
夕
⼩
瑶
的
卖
萌
屋