Transformer太大了，我要把它微调成RNN.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

NLP

187 浏览量 2023-10-18 17:51:47 上传评论收藏 3.4MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

Transformer太大了，我要把它微调成RNN.rar （1个子文件）

Transformer太大了，我要把它微调成RNN.pdf 4.67MB

orm

太⼤

了

，

我

要

把

它

微

调

成

收

录

于

话

题

卖

萌

屋

⾃

然

语⾔

处

理

个

⽂

炼

丹

学

徒

编

⼩

轶

从

前

⻋

⻢

很

慢

，

显

卡

跑

的

也

慢

，⼀

⽣

只

够

爱

⼀个

RNN

。

后

来时

代

进

步

了

，

数据

量

和

计

算

⼒

阔

绰

了

，

堆

叠

起

来

的

Transformer

能

够

在

更

深

更

宽

的

模

型

结

构

⾥

吃

下

去

更

多

的

数据

。

从

年

的

预

训

练

浪

潮

开

始

，

暴

⼒

美

学

兴

起

，

更

深

的

Transformer

更

久

的

预

训

练

更

⼤

的

模

型

参

数

量

，

暴

⼒出

奇

迹

⼀个个

NLP

榜

单

被

刷

新

，

但

谁

⼜

记

得

起

来

当

初

Transformer

论

⽂

⾥

“

解

决

RNN

⽆

法

并

⾏

化

训

练

问题

”

的

追

求

效

率

的

motivation

呢

？

身

在

普

通

⾼

校

，

⼿

握

2080Ti

和

Titan V

，

向

着

⼤

⼚

的

预

训

练

模

型

望

洋

兴

叹

，

我

们

开

始

怀念

起

当

初

⼈⼈

都

训

练

得

起

的

LSTM

和

GRU

。

那

是

精

巧

轻

量

的

模

型

，

那

是

⼈⼈

都

刷

的

起

SOTA

的

时

代

。

今

天

这

篇

来

⾃

微

软

的

论

⽂

告

诉

我

们

，

⼤

⼚

⾥

有

⼀

些

研

究

员

也

还

是

爱

我

们

的

，

Finetuning Pretrained

Transformers into RNNs

，

在

保

持

性

能

的

情

况

下，

将

预

训

练

好

的

Transformer

模

型

微

调

到其

RNN

变

体

，

极

⼤

地

降

低

显

存

使

⽤

和

计

算

开

销

。

论

⽂

题

⽬

Finetuning Pretrained Transformers into RNNs

论

⽂

链

接

https://arxiv.org/abs/2103.13076

Arxiv

访

问

慢

的

⼩

伙伴也

可

以

在

【

夕

⼩

瑶

的

卖

萌

屋

】

订

阅

号后台

回

复

关

键

词

【

0407

】

下

载

论

⽂

PDF~

炼

丹

学

徒

2021-04-07

22:20

原

创

夕

⼩

瑶

的

卖

萌

屋

本

⽂提

出

的

模

型

名

为

T2R

，

代

表

Transformer to RNN

。

转

换

的

过

程

为

swap-then-finetune

，

即

，

对

于

⼀个

预

训

练

好

的

Transformer

模

型

，

我

们

将

其

的

注

意

⼒

计

算

改

为

线

性

的

替

换

模

块

，

然

后

进

⾏

微

调

。

可

以

预

感

到

，

其

核

⼼

就

在

于

如

何

⽤

线

性

的

⼦层对

注

意

⼒

层

进

⾏

模

拟

。

接

下

来

，

我

们

对

其

进

⾏详解

。

概

述

在

2019

年

EMNLP

论

⽂

Transformer Dissection [1]

中

，

作

者

提

出

：

可

以

将

注

意

⼒

层

的相

似

度

计

算

( )

替

换

为

核

函

数

的

分

数

。

ICML'20

的

另

⼀

⼯

作

Transformers are RNNs [2]

则

在

此

基

础

上

进

⼀

步

优

化

，

提

出

了

将

的

注

意

⼒

计

算

替

换

为

线

性

的

模

块

。

今

天

要讲

的

T2R

这

篇

⽂

章

是

紧

随

上

⾯

ICML'20

这

篇

⼯

作

进

⾏

的

。

之

前

Transformers are RNNs

的

⽅

法

中

，

使

⽤

的

核

函

数

没

有

参

数

，不

可

训

。

⽽

T2R

把

核

函

数

⾥

封

装

了

⼀个

MLP

变

成

可

训

练

的

。

T2R

原

⽂

的

推

导

直

接

使

⽤

了

Transformers are RNNs

与

Transformer Dissection

的

结

论

，

因

⽽

推

导

过

程

并

不

完

整

。

我

们今

天

也

沿

着

T2R

的

思

路

进

⾏讲解

，

如

果

想

要

更

深

⼊

了

解

Transformer

转

RNN

领

域

的

，

可

以

阅

读

下

⾯

两

篇

论

⽂

：

[1] Tsai et al. Transformer Dissection: A Unified Understanding of Transformer's Attention

via the Lens of Kernel. EMNLP 2019

[2] Katharopoulos et al. Transformers are RNNs: Fast autoregressive transformers with

linear attention. ICML 2020

Transformer

开

销

Transformer

由

多头

注

意

⼒

层

、

前

馈

层

、

层

归

⼀

化

层

堆

叠后

组

成

。

本

篇

论

⽂

中

要

替

换

的

，

就

是

其

中

的

多

头

注

意

⼒

层

。

在

开

始

讲解

如

何

替

换

之

前

，

我

们

还

是

先

梳

理

⼀下

传

统

Transformer

的

多头

注

意

⼒

层

。

整

个

计

算

过

程

可

以

总

结

如

下

图

所

示

：

▲

传

统

Tran sfor mer

的

多头

注

意

⼒

层

计

算

过

程

这

张

图

我

们

⾃

下

往

上

看

。

⾸

先

，

我

们

将

多头

注

意

⼒

层

的

source

隐

状

态

记

作

，

target

隐

状

态

记

作

。

如

何

理

解

此

处

的

source

和

target

：

⽐

如

，

在

解

码

器

的

编

码

器

解

码

器

注

意

⼒

层

中

，

就

是

编

码

器

端

的

序

列

⻓

度

，

就

是

解

码

器

端

的

⻓

度

。

在

⾃

回

归

推断

的

解

码

器

⾃

注

意

⼒

层

中

，

就

是

已

⽣

成

序

列

（

加

上

⾃

⼰

）

的

⻓

度

，

等

于

，

指

当

前

要

预

测

的

这

个

字

符

。

从

隐

状

态

，

我

们

通过

线

性

变

换

得

到

。

则

，

注

意

⼒

层

的

输

出

为

：

其

中

，

操

作

旨

在

计

算

和

的相

似

度

（

这

⾥

划

重

点

等

⼀

会

⼉

就

要

对

这

个

计

算

动

⼿

脚

了

！

）：

上

述

的

多头

注

意

⼒

的

计

算

是

我

们

熟

知的

。

论

⽂

对

其

复

杂

度

进

⾏

了

分

析

。

设

多头

数

为

，

每

个

头

的

隐

状

态

⻓

度

，

每

个

的

隐

状

态总

⻓

，

则

有

如

下

结

论

：

特

征

计

算

：

即

由

隐

状

态

计

算

得

到

的

过

程

，

复

杂

度

分别

为

和

注

意

⼒

计

算

由

计

算

得

到

最

终

输

出

的

过

程

，

复

杂

度

为

，与

的

⻓

度

成

平

⽅

关

系

。

推断

时

的

显

存

：，与

已

经

解

码的

⻓

度

线

性

相

关

。

注

意

⼒

层

的

RNN

替

代

⽅

案

T2R

的

注

意

⼒

层

计

算

过

程

则

如

下

图

所

示

：

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

Transformer太大了，我要把它微调成RNN.rar

Transformer太大了，我要把它微调成RNN.pdf

谷歌提出 RNN 版 Transformer，或为长文本建模的当前最优解.rar

transformer.rartransformer.rar

Speech-Transformer.rar

transformer_pytorch_inCV.rar

transformer_pytorch_inCV.rar.zip

conv-transformer.rar

从RNN到Attention到Transformer系列-Transformer介绍及代码实现

Transformer code.rar

Power transformer.rar_Power_transformer_power_power transformer_

深度学习-Transformer实战系列.rar

Google - 突破瓶颈，打造更强大的Transformer.rar

放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN_RNN_TF）比较 - 知乎1

项目实战.rar项目实战.rar项目实战.rar

1000层的Transformer，诞生了！ .rar

LayerNorm是Transformer的最优解吗？.rar

bidirectional-transformer.rar_transformer

可交互的 Attention 可视化工具！我的Transformer可解释性有救了？.rar

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

第十九届研电赛-技术论文模板

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

1.txt

学术海报模板+论文科研+研究生

最新资源

李飞飞自传我看见的世界 The World I see