别再蒸馏3层BERT了！变矮又能变瘦的DynaBERT了解一下.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

40 浏览量 2023-10-18 17:54:50 上传评论收藏 1.13MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

别再蒸馏3层BERT了！变矮又能变瘦的DynaBERT了解一下.rar （1个子文件）

别再蒸馏3层BERT了！变矮又能变瘦的DynaBERT了解一下.pdf 1.31MB

别再蒸馏3层BERT了！变矮⼜能变瘦的DynaBERT了解⼀下

原创

rumor酱

5⽉21⽇⼣⼩瑶的卖萌屋

来⾃专辑

卖萌屋@⾃然语⾔处理

⼀只⼩狐狸带你解锁炼丹术&NLP秘籍

神经⽹络模型除了部署在远程服务器之外，也会部署在⼿机、⾳响等智能硬件上。⽐如在⾃动驾驶的场景下，⼤部分模型都得放

在⻋上的终端⾥，不然荒⼭野岭没有⽹的时候就尴尬了。对于BERT这类⼤模型来说，也有部署在终端的需求，但考虑到设备的

运算速度和内存⼤⼩，是没法部署完整版的，必须对模型进⾏瘦⾝压缩。

说到模型压缩，常⽤的⽅法有以下⼏种：

1. 量化：⽤FP16或者INT8代替模型参数，⼀是占⽤了更少内存，⼆是接近成倍地提升了计算速度。⽬前FP16已经很常⽤

了，INT8由于涉及到更多的精度损失还没普及。

2. 低轶近似∕权重共享：低轶近似是⽤两个更⼩的矩阵相乘代替⼀个⼤矩阵，权重共享是12层transformer共享相同参数。这两

种⽅法都在ALBERT中应⽤了，对速度基本没有提升，主要是减少了内存占⽤。但通过ALBRET⽅式预训练出来的

Transformer理论上⽐BERT中的层更通⽤，可以直接拿来初始化浅层transformer模型，相当于提升了速度。

3. 剪枝：通过去掉模型的⼀部分减少运算。最细粒度为权重剪枝，即将某个连接权重置为0，得到稀疏矩阵；其次为神经元剪

枝，去掉矩阵中的⼀个vector；模型层⾯则为结构性剪枝，可以是去掉attention、FFN或整个层，典型的⼯作是

LayerDrop

[1]

。这两种⽅法都是同时对速度和内存进⾏优化。

4. 蒸馏：训练时让⼩模型学习⼤模型的泛化能⼒，预测时只是⽤⼩模型。⽐较有名的⼯作是DistillBERT

[2]

和TinyBERT

[3]

。

实际⼯作中，减少BERT层数+蒸馏是⼀种常⻅且有效的提速做法。但由于不同任务对速度的要求不⼀样，可能任务A可以⽤6层

的BERT，任务B就只能⽤3层的，因此每次都要花费不少时间对⼩模型进⾏调参蒸馏。

有没有办法⼀次获得多个尺⼨的⼩模型呢？

今天rumor就给⼤家介绍⼀篇论⽂《DynaBERT: Dynamic BERT with Adaptive Width and Depth》

[4]

。论⽂中作者提出了新

的训练算法，同时对不同尺⼨的⼦⽹络进⾏训练，通过该⽅法训练后可以在推理阶段直接对模型裁剪。依靠新的训练算法，本⽂

在效果上超越了众多压缩模型，⽐如DistillBERT、TinyBERT以及LayerDrop后的模型。

Arxiv访问慢的⼩伙伴也可以在订阅号后台回复关键词【0521】下载论⽂PDF。

原理

论⽂对于BERT的压缩流程是这样的：

训练时，对宽度和深度进⾏裁剪，训练不同的⼦⽹络

推理时，根据速度需要直接裁剪，⽤裁剪后的⼦⽹络进⾏预测

想法其实很简单，但如何能保证更好的效果呢？这就要看炼丹功⼒了 (..•˘_˘•..)，请听我下⾯道来〜

整体的训练分为两个阶段，先进⾏宽度⾃适应训练，再进⾏宽度+深度⾃适应训练。

宽度⾃适应 Adaptive Width

宽度⾃适应的训练流程是：

1. 得到适合裁剪的teacher模型，并⽤它初始化student模型

2. 裁剪得到不同尺⼨的⼦⽹络作为student模型，对teacher进⾏蒸馏

最重要的就是如何得到适合裁剪的teacher。先说⼀下宽度的定义和剪枝⽅法。Transformer中主要有Multi-head Self-

attention(MHA)和Feed Forward Network(FFN)两个模块，为了简化，作者⽤注意⼒头的个数和intermediate层神经元的个数

来定义MHA和FFN的宽度，并使⽤同⼀个缩放系数来剪枝，剪枝后注意⼒头减⼩到个，intermediate层神经元减

少到个。

在MHA中，我们认为不同的head抽取到了不同的特征，因此每个head的作⽤和权重肯定也是不同的，intermediate中的神经元连

接也是。如果直接按照粗暴裁剪的话，⼤概率会丢失重要的信息，因此作者想到了⼀种⽅法，对head和神经元进⾏排序，每

次剪枝掉不重要的部分，并称这种⽅法为Netword Rewiring。

对于重要程度的计算参考了论⽂

[5]

，核⼼思想是计算去掉head之前和之后的loss变化，变化越⼤则越重要。

利⽤Rewiring机制，便可以对注意⼒头和神经元进⾏排序，得到第⼀步的teacher模型，如图：

要注意的是，虽然随着参数更新，注意⼒头和神经元的权重会变化，但teacher模型只初始化⼀次（在后⽂有验证增加频率并没

带来太⼤提升）。之后，每个batch会训练四种student模型，如图：

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip