【免费】chap-网络优化与正则化1资源-CSDN文库

需积分: 0 201 浏览量 2022-08-03 20:27:46 上传评论收藏 3.79MB PDF 举报

资源详情

资源评论

资源推荐

168 2019 年 4 月 10 日第 7 章网络优化与正则化

令 f(x, θ)表示一个深层神经网络，θ 为网络参数，在使用小批量梯度下降进

行优化时，每次选取K 个训练样本 I

t

= {(x

(k)

, y

(k)

)}

K

k=1

。第t次迭代（iteration）

时损失函数关于参数 θ 的偏导数为

g

t

(θ) =

1

K



(x

(k)

,y

(k)

)∈I

t

∂L



y

(k)

, f(x

(k)

, θ)



∂θ

, (7.1)

其中 L(·) 为可微分的损失函数，K 称为批量大小（Batch Size）。

这里的损失函数忽略了正则

化项。加上 ℓ

p

正则化的损失

函数参见第7.7.1节。

第 t 次更新的梯度 g

t

定义为

g

t

, g

t

(θ

t

−

1

). (7.2)

使用梯度下降来更新参数，

θ

t

← θ

t−1

− αg

t

, (7.3)

其中 α > 0 为学习率。

每次迭代时参数更新的差值 ∆θ

t

定义为

∆θ

t

, θ

t

− θ

t−1

. (7.4)

∆θ

t

和梯度 g

t

并不需要完全一致。∆θ

t

为每次迭代时参数的实际更新方向，即

θ

t

= θ

t−1

+ ∆θ

t

。在标准的小批量梯度下降中，∆θ

t

= −αg

t

。

图7.3给出了在 MNIST 数据集上，批量大小对损失下降的影响。一般批量

值得注意的是，图7.3中的三

种批量大小对应的学习率并

不一致，因此并不是严格对

比。

大小较小时，需要设置较小的学习率较，否则模型会不收敛。从图7.3a可以看

出，每次迭代选取的批量样本数越多，下降效果越明显，并且下降曲线越平滑。

当每次选取一个样本时（相当于随机梯度下降），损失整体是下降趋势，但局部

看会来回震荡。从图7.3b可以看出，如果按整个数据集上的迭代次数（Epoch）

的来看损失变化情况，则是批量样本数越小，下降效果越明显。

Epoch（回合）和 Iteration

（单次更新）的关系为 1 个

epoch 等于 (

训练样本的数量N

批量大小K

)

次 Iterations。

0 1000 2000 3000 4000 5000

iterations

10

-3

10

-2

10

-1

10

0

10

1

loss

SGD(batchsize=1 learningrate=0.01)

SGD(batchsize=32 learningrate=0.5)

SGD(batchsize=2048 learningrate=0.5)

(a) 按每次小批量更新的损失变化

0 1 2 3 4 5 6 7 8

epochs

10

-3

10

-2

10

-1

10

0

10

1

loss

SGD(batchsize=1 learningrate=0.05)

SGD(batchsize=32 learningrate=0.5)

SGD(batchsize=2048 learningrate=0.5)

(b) 按整个数据集迭代的损失变化

图 7.3 批量大小对损失下降的影响

邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

剩余34页未读，继续阅读

评论0

内容反馈

无能为力就要努力

粉丝: 16
资源: 332

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip