Transformer哪家强？Google爸爸辨优良！.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

NLP

32 浏览量 2023-10-18 17:54:50 上传评论收藏 2.52MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

Transformer哪家强？Google爸爸辨优良！.rar （1个子文件）

Transformer哪家强？Google爸爸辨优良！.pdf 2.97MB

orm

哪

家

强

？

gle

爸爸

辨

优

良

！

⽂

：

Zilong

2017

年

Attention is all you need

横

空

出

世，

Transformer

横

扫

机

器

翻

译

，

隔

年

诞

⽣

的

BERT

建

⽴

在

层

堆

叠

的

Transformer

之

上，

凭

借

这

个

平平

⽆

奇

的

Attention

点

乘

模

型

⼀

举

刷

新

了

各

种

沉

积

许

久

的

榜

单

，

⼀

夜

间

仿佛

不

懂

Transformer

，

都

不

敢

说

⾃

⼰

是

NLPer

了

，

曾

经

最

⼼

爱

的

RNN

也

瞬

间

黯

然

失

⾊

。

Transformer

有

着

简

易

的的

结

构

、

SOTA

的

能

⼒

，

搭

配

CUDA

矩

阵

并

⾏

运

算

，不

仅

效

果

上

⽐

RNN

胜

出

⼀

筹

，

在

运

算

效

率

上

也

遥遥

领

先

。

于

是

，

⽆数

论

⽂

纷

⾄

沓

来

，

留

给

RNN

的

时

间

已

经

不

多

了

。

然

⽽

，

Transformer

⼤

厦

上

空

依

旧

有

着

⼀

朵

乌云

，

让

NLPer

耿耿

于

怀

，

Transformer

的

核

⼼

结

构

——self

attention

归

根

到

底

依

旧

是

⼆

维

矩

阵

运

算

，

纵

使

抛

弃

了

RNN

中

时

序

运

算

，

得

到

了

极

⼤

的

运

算

效

率

的

提

升

，

但

是

计

算

机

系

本

科

⽣

都

知

道

，

矩

阵

运

算

的

复

杂

度

是

丑

陋

的

。

当

Transformer

遇

到

⽂

档

分

类

或

者

篇章

理

解

之

类

的

任

务

，

随

着

⽂

档

⻓

度

增

⻓

，

计

算

效

率

愈

发

难

以

忍

受

。

为了

解

决

运

算

复

杂

度

的

问题

，

NLPer

提

出

了

各

种

改

进

的

版

本

，

xformer

家

族⽇

渐

壮⼤

，⼀个个

都

声

称

⾃

⼰

解

决

了

Transformer

的

核

⼼

问题

，

试

图

挑

战

transformer

⽼

⼤

哥

的

地

位

。

其

中

不

乏佼佼

者

如

：

Reformer ( https://arxiv.org/abs/2001.04451 )

：

通过

Locality Sensitive Hashing

类

似

于

桶

排

序

，

将

相

似

向

量

归

为

⼀

类

，

计

算

同

类

向

量

之

间

的

点

积

，

复

杂

度

为

。

Linformer ( https://arxiv.org/abs/2006.04768 )

：

认

为

注

意

⼒

机

制

是

低

秩

，

信

息

集

中

在

前

⼤

的

奇

异

值

中

，

通过

线

性

映

射将

复

杂

度

降

为

，

当

⾜

够

⼩

，

模

型

接

近

线

性

时

间

。

2020-12-11

17:00

原

创

夕

⼩

瑶

的

卖

萌

屋

Sinkhorn Transformers ( https://arxiv.org/abs/2002.11296.pdf )

：

将

输

⼊分

块

，

并

基

于

Sinkhorn

对

输

⼊

键

值

对

进

⾏

重

新排

序

，

并应

⽤

基

于

块

的

局

部

注

意

⼒

机

制

来

学

习

稀

疏

模

式

。

Performers ( https://arxiv.org/abs/2009.14794 )

：

通过

正

交

随

机

特

征

算

法

加

速

注

意

⼒

计

算

，

改

⽤

Positive Orthogonal Random Features

对

常

规

softmax

注

意

⼒

进

⾏

鲁

棒

且

⽆

偏

的

估

计

。

Synthesizers ( https://arxiv.org/abs/2005.00743 )

：

没

有

保

持

“token

对

token”

形式

的

注

意

⼒

形式

，

抛

弃

了

原

有

注

意

⼒

的

动

态

特点

，

利

⽤

线

性

变

换

得

到

注

意

⼒

矩

阵

。

Linear Transformers ( https://arxiv.org/abs/2006.16236 )

：

通过

使

⽤

核

函

数

并

且

替

换掉

SoftMax

，

来

简

化

Attention

的

计

算

过

程

，

使

复

杂

度

降

⾄

。

BigBird ( https://proceedings.neurips.cc//paper/2020/hash/c8512d142a2d849725

f31a9a7a361ab9-Abstract.html )

：

在

Longformer

的

滑

动

窗

⼝和

膨胀

窗

⼝

的

基

础

上

增

加

了

Random attention

，

当

前

⻓

序

列

建

模

的

SOTA

，

刷

新

了

和

摘

要

的

SOTA

，

同

时

也

被证

明是

图

灵

完

备

的

。

但

是

这

些

⽂

章

都

是

⾃

说

⾃

话

，

⽤

着

各

式

各

样

的

benchmarks

、

metrics

，

并

没

有

⼀个

统

⼀

的

标

准

⽐

⼀

⽐

Transformer

哪

家

强

。

于

是

Google

出

⾯

提

出

了

Long Range Arena

，

试

图

从

核

⼼

问题

场

景

⻓

⽂

本

分

析

⼊

⼿

，

提

出

评

价

模

型

的

个

标

准

、

⼤

任

务

，

逐

⼀

⽐

较

各

个

新

兴

xformer

和原

始

Transformer

的

表

现

。

论

⽂

题

⽬

：

Long Range Arena: A Benchmark for Efficient Transformers

论

⽂

链

接

：

https://arxiv.org/abs/2011.04006

Arxiv

访

问

慢

的

⼩

伙伴也

可

以

在

【

夕

⼩

瑶

的

卖

萌

屋

】

订

阅

号后台

回

复

关

键

词

【

1211

】

下

载

论

⽂

PDF~

个

标

准

贴

⼼

如

Google

，

纵

使

坐

拥

海

量

资

源

，

依

旧

⼼

系

贫

下

中

农

，

时时

刻刻

担

⼼

抱

着

CPU

炼

丹

的码

农

跑

不

了他

的

代

码

，

于

是

LRA

严

于

律

⼰

，

树

⽴

了

个

标

准

，

确

保

LRA

标

准

适

⽤

范

围

⾜

够

⼴

泛

。

通

⽤

性

：

所

有

Transformer

都

能

使

简

易

性

：

⽆

需

数据

增

强

、

预

训

练

等

繁

琐

的

准

备

步

骤

挑

战

性

：

任

务

⾜

够

难

，

⼈⼈

都

90%+

就

没

意

思

了

（

能

卷

起

来

）

⻓

输

⼊

：

Long Range Arena

，

输

⼊

⾃

然

要

⻓

⼀

点

，

测

试

场

景

就

是

⻓

输

⼊

下

的

表

现

多

⽅

⾯

：

⽅⽅

⾯⾯

都

需

要

考

察

到

，

如

⻓

距

离

依

赖

、

泛

化

能

⼒

等等

轻

计

算

：

“

妈妈

再

也

不

⽤

担

⼼

我

没

有

⼯

业

级

显

卡

了

”

个

任

务

Google

上

先

抛

出

了

严

格

的

个

标

准

，

然

后

将

准

备好

的

任

务

娓娓

道

来

。

Long ListOps

这

个

任

务

看

起

来

神

似

前

缀

表

达

式

，

考

虑

max

、

min

、

median

、

sum_mod

四

种

运

算

外

带

括

号

形

成

的

hierarchical structure

，

考

察

xformer

对

⻓

序

列

层

次

结

构

的

理

解

能

⼒

。

Byte-level Text Classification

、

Byte-level Document Retrieval

这

两个

任

务

主

要

关

注

对

⻓

⽂

本

的

概

括

能

⼒

，

测

试

xformer

能

否

提

取

到

⻓

⽂

本

的

⾜

够

信

息

量

⽤

于

分

类

和匹

配

，

值

得

注

意

的

是

，

Google

选

取

了

Byte-level

的

输

⼊

，

即

字

符

级

别

的

输

⼊

，

轻

松构

造

出

⻓

达

的

输

⼊

。

Image Classification on Sequences of PixelsGoogle

还

企

图

将

Transformer

⽤

于

的

任

务

中

，

这

个

任

务

将

的

图

⽚

拉成

的

像

素

序

列

，

当

作

⽂

本

去

做分

类

任

务

。

因

为

输

⼊

直

接

抹

去

了

⼆

维

信

息

，

这

个

任

务

不

仅

考

察

了

xformer

对

序

列

特

征

的

捕捉

能

⼒

，

同

时

考

察

了

对层

次

结

构

的

感

知

⼒

。

PathFinder (Long-Range Spatial Dependency)

、

PathFinder-X (Long-Range Spatial

Dependencies with Extreme Lengthts)

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

Transformer哪家强？Google爸爸辨优良！.rar

Google - 突破瓶颈，打造更强大的Transformer.rar

1000层的Transformer，诞生了！ .rar

如何提升大规模Transformer的训练效果？Primer给出答案 .rar

1000层的Transformer，诞生了！ .pdf

transformer.rartransformer.rar

LayerNorm是Transformer的最优解吗？.rar

可交互的 Attention 可视化工具！我的Transformer可解释性有救了？.rar

transformer_pytorch_inCV.rar.zip

transformer_pytorch_inCV.rar

谷歌：CNN击败Transformer，有望成为预训练界新霸主！LeCun却沉默了.._.rar

Speech-Transformer.rar

conv-transformer.rar

Transformer code.rar

告别自注意力，谷歌为Transformer打造新内核Synthesizer.rar

Power transformer.rar_Power_transformer_power_power transformer_

如何提升大规模Transformer的训练效果？Primer给出答案 .pdf

项目实战.rar项目实战.rar项目实战.rar

深度学习-Transformer实战系列.rar

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

农村公交与异构无人机协同配送优化

学术海报模板+论文科研+研究生

北森能力测评题库.zip

最新资源

李飞飞自传我看见的世界 The World I see