【免费】第7章网络优化与正则化1资源-CSDN文库

神经网络

网络

需积分: 0 73 浏览量 2022-08-04 12:11:47 上传评论收藏 3.81MB PDF 举报

资源详情

资源评论

资源推荐

第 6 章网络优化与正则化

任何数学技巧都不能弥补信息的缺失。

— Cornelius Lanczos，1964

虽然神经网络具有非常强的表达能力，但是当应用神经网络模型到机器学

习时依然存在一些难点。主要分为两大类：

（1）优化问题：神经网络模型是一个非凸函数，再加上在深度网络中的梯

度消失问题，很难进行优化；另外，深层神经网络模型一般参数比较多，训练

数据也比较大，会导致训练的效率比较低。

（2）泛化问题：因为神经网络的拟合能力强，反而容易在训练集上产生过

拟合。因此，在训练深层神经网络时，同时也需要通过一定的正则化方法来改

进网络的泛化能力。

目前，研究者从大量的实践中总结了一些经验技巧，从优化和正则化两个

方面来提高学习效率并得到一个好的网络模型。

6.1 网络优化

深层神经网络是一个高度非线性的模型，其风险函数是一个非凸函数，因

此风险最小化是一个非凸优化问题，会存在很多局部最优点。

6.1.1 网络优化的难点

有效地学习深层神经网络的参数是一个具有挑战性的问题，其主要原因有

以下几个方面。

136 2018 年 10 月 30 日第 6 章网络优化与正则化

令 f(x, θ)表示一个深层神经网络，θ 为网络参数，在使用小批量梯度下降进

行优化时，每次选取K 个训练样本 I

= {(x

(k)

, y

(k)

)}

k=1

。第 t次迭代（iteration）

时损失函数关于参数 θ 的偏导数为

(θ) =



(k)

)∈I

∂L



(k)

, f(x

(k)

, θ)



∂θ

, (6.1)

其中 L(·) 为可微分的损失函数，K 称为批量大小（Batch Size）。

这里的损失函数忽略了正则

化项。加上 ℓ

正则化的损失

函数参见第6.7.1节。

第 t 次更新的梯度 g

定义为

, g

(θ

t−1

). (6.2)

使用梯度下降来更新参数，

← θ

−

− αg

, (6.3)

其中 α > 0 为学习率。

每次迭代时参数更新的差值 ∆θ

定义为

∆θ

, θ

− θ

t−1

. (6.4)

∆θ

和梯度 g

并不需要完全一致。∆θ

为每次迭代时参数的实际更新方向，即

= θ

t−1

+ ∆θ

。在标准的小批量梯度下降中，∆θ

= −αg

。

图6.3给出了在 MNIST数据集上，批量大小对损失下降的影响。从图6.3a可

以看出，每次迭代选取的批量样本数越多，下降效果越明显，并且下降曲线越

平滑。当每次选取一个样本时（相当于随机梯度下降），损失整体是下降趋势，

但局部看会来回震荡。从图6.3b可以看出，如果按整个数据集上的迭代次数的

来看损失变化情况，则是批量样本数越小，下降效果越明显。

Epoch（回合）和 Iteration

（单次更新）的关系为 1 个

epoch 等于 (

训练样本的数量N

批量大小K

)

次 Iterations。

0 1000 2000 3000 4000 5000

iterations

-3

-2

-1

loss

SGD(batchsize=1 learningrate=0.01)

SGD(batchsize=32 learningrate=0.5)

SGD(batchsize=2048 learningrate=0.5)

(a) 按每次小批量更新的损失变化

0 1 2 3 4 5 6 7 8

epochs

-3

-2

-1

loss

SGD(batchsize=1 learningrate=0.05)

SGD(batchsize=32 learningrate=0.5)

SGD(batchsize=2048 learningrate=0.5)

(b) 按整个数据集迭代的损失变化

图 6.3 小批量梯度下降中，批量大小对损失下降的影响

邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

6.2 优化算法 2018 年 10 月 30 日 137

为了更有效地进行训练深层神经网络，在标准的小批量梯度下降方法的基

础上，也经常使用一些改进方法以加快优化速度。常见的改进方法主要从以下

两个方面进行改进：学习率衰减和梯度方向优化。这些改进的优化方法也同样

可以应用在批量或随机梯度下降方法上。

6.2.2 学习率衰减

在梯度下降中，学习率 α 的取值非常关键，如果过大就不会收敛，如果过

小则收敛速度太慢。从经验上看，学习率在一开始要保持大些来保证收敛速度，

在收敛到最优点附近时要小些以避免来回震荡。因此，比较简单直接的学习率

调整可以通过学习率衰减（Learning Rate Decay）的方式来实现。

假设初始化学习率为 α

，在第 t 次迭代时的学习率 α

。常用的衰减方式为

可以设置为按迭代次数进行衰减。比如逆时衰减（inverse time decay）

= α

1 + β × t

, (6.5)

或指数衰减（exponential decay）

= α

, (6.6)

或

自然指数衰减

（

natural exponential decay

）

= α

exp(−β × t), (6.7)

其中 β 为衰减率，一般取值为 0.96。

除了这些固定衰减率的调整学习率方法外，还有些自适应地调整学习率的

方法，比如 AdaGrad、RMSprop、AdaDelta等。这些方法都对每个参数设置不

同的学习率。

6.2.2.1 AdaGrad 算法

在标准的梯度下降方法中，每个参数在每次迭代时都使用相同的学习率。

由于每个参数的维度上收敛速度都不相同，因此根据不同参数的收敛情况分别

设置学习率。

AdaGrad（Adaptive Gradient）算法 [Duchi et al., 2011] 是借鉴 L2 正则化

的思想，每次迭代时自适应地调整每个参数的学习率。在第 t 迭代时，先计算每

个参数梯度平方的累计值



τ =1

⊙ g

, (6.8)

其中 ⊙为按元素乘积，g

∈ R

|θ|

是第 τ 次迭代时的梯度。

邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

剩余32页未读，继续阅读

评论收藏

内容反馈

禁忌的爱

粉丝: 20
资源: 334

第7章网络优化与正则化1

评论0

最新资源

第7章 网络优化与正则化1

评论0

chap-网络优化与正则化1

chap7-网络优化与正则化.pdf

chap-网络正则化与优化1

深度学习笔记

Deep Learning Book Chinese Translation

《深度学习》手推笔记（公式手推）

chap-网络优化与正则化.pptx

chap-网络优化与正则化.pdf

正则化网络

正则化：改进深度神经网络超参数调整，正则化和优化的第5周

L-M 优化算法和贝叶斯正则化算法训练BP网络

深度学习500问，全系列资料整理

用Python写网络爬虫.pdf

用Python写网络爬虫PDF-理查德 劳森（Richard Lawson）

BP.rar_BAYESIAN control_L 正则化_大坝温度_正则化 优化_温度预报

java正则与程序优化

通过ν正则化优化极限学习机

背景和前景建模中的正则化优化

21天学通Oracle

PHP和MySQL WEB开发(第4版)

PHP和MySQL Web开发第4版pdf以及源码

PHP和MySQL Web开发第4版

最新资源

第7章网络优化与正则化1

用Python写网络爬虫PDF-理查德劳森（Richard Lawson）

BP.rar_BAYESIAN control_L 正则化_大坝温度_正则化优化_温度预报