【免费】翻译稿WORD版1资源-CSDN文库

需积分: 0 116 浏览量 2022-08-08 21:02:25 上传评论收藏 309KB DOCX 举报

资源详情

资源评论

资源推荐

Batch Normalization: Accelerating Deep Network

Training by Reducing Internal Covariate Shift

批量归一化：通过减少内部协变量转移加速深度网络训

练

翻译：陈媛媛(初)，管枫(复)，任远航(审)

绪论：

在深度神经网络的训练过程中，先前层参数的调整

会导致之后每一层输入值的分布发生变化，这种现象使

模型的训练变得很复杂。所以在深度神经网络模型的训

练中，通常需要仔细选取初始参数并采取较小的学习率，

这不但导致模型训练的效率低下，而且使得饱和非线性

模型的训练极为困难。我们把这种现象称为内部协变量

转移(covariate shift)，并通过归一化(normalizing)

每层的输入来解决这个问题。我们方法的强大之处在于

把归一化的步骤作为模型训练架构的一部分来实现, 并

且对每个训练小批量都执行归一化操作。批量归一化允

许我们使用很高的学习率并且对初始化不太在意。它在

一定情况下也可以起到正则化的作用，并减轻了对

Dropout 的需求。我们在最先进的图像分类模型中使用

批量归一化法，在减少了 14 倍训练步骤的情况下实现

了与原模型相同的精度，并以显著增量击败了原始模型。

我们使用批量归一化的网络模型，增强了在 ImageNet

2 减少内部协变量转移

我们把在训练期间由于网络参数的变化而造成的网

络激活函数输出值分布的变化称为定义为内部协变量转

移。为了增强训练，我们要寻求减少内部协变量转移。

我们期待通过在训练过程中保持层输入

的分布来提高

训练速度。众所周知如果层输入被白化(whitened)，也

就是说把层输入线性变换为零均值和单位方差并且去相

关，则网络训练就会收敛得更快。由于每层的输入是由

下面层产生的输出，因此对每层输入进行相同程度的白

化将是有利的。通过白化每层输入，我们就可以向实现

输入的固定分布，并向消除内部协变量转移的不良影响

的目标前进一步。

我们可以考虑对每个训练步骤或者以一定间隔的激

活函数进行白化，也可以通过直接修改网络或者根据网

络激活值改变优化算法的参数。但是，如果仅仅将这些

修改与优化步骤直接穿插摆放，则梯度下降的步骤对参

数的调整可能会改变激活输出的分布并导致重新归一化，

而这有可能会使得梯度下降的效果减弱。比如，考虑一

个层，输入是

加上学习偏置

，并且通过减去在训练数

据上计算的激活的平均值来对结果进行归一化：

[ ]

x xEx

= -

)

其中

x ub

= +

，

{ }

...N

是训练集上

值的集合，

[ ]

Ex x

�

。如果一个梯度下降步骤忽略了

[ ]

对

的依

赖性，则它更新

的值就是

b b b

� +D

，其中

b / x

D -��

)

。然

后

( ) ( )

[ ]

u b b Eu b b ubEub

+ +D - + +D = + - +

� �

。因此，对 b 的更新

和随后的归一化中的变化这两者的组合导致层的输出没

有改变[读不通]，所以也不会改变损失函数。随着训练

继续，

将无限增长，而损失函数则保持固定不变。如

果归一化不仅中心而且缩放激活[?]，这个问题可能变

得更糟。我们在初始试验中观察到，当归一化参数在梯

剩余22页未读，继续阅读

评论收藏

内容反馈

卡哥Carlos

粉丝: 27
资源: 300

翻译稿WORD版1

评论0

最新资源