【免费】chap-网络优化与正则化1资源-CSDN文库

网络

神经网络

需积分: 0 21 浏览量 2022-08-04 14:39:45 上传评论收藏 3.8MB PDF 举报

资源详情

资源评论

资源推荐

第 7 章网络优化与正则化

任何数学技巧都不能弥补信息的缺失。

— Cornelius Lanczos，1964

虽然神经网络具有非常强的表达能力，但是当应用神经网络模型到机器学

习时依然存在一些难点。主要分为两大类：

（1）优化问题：神经网络模型是一个非凸函数，再加上在深度网络中的梯

度消失问题，很难进行优化；另外，深层神经网络模型一般参数比较多，训练

数据也比较大，会导致训练的效率比较低。

（2）泛化问题：因为神经网络的拟合能力强，反而容易在训练集上产生过

拟合。因此，在训练深层神经网络时，同时也需要通过一定的正则化方法来改

进网络的泛化能力。

目前，研究者从大量的实践中总结了一些经验技巧，从优化和正则化两个

方面来提高学习效率并得到一个好的网络模型。

7.1 网络优化

深层神经网络是一个高度非线性的模型，其风险函数也是一个非凸问题。

在非凸问题中，一个会存在一些局部最优点。

7.1.1 网络优化的难点

有效地学习深层神经网络的参数是一个具有挑战性的问题，其主要原因有

以下几个方面。

134 2018 年 5 月 27 日第 7 章网络优化与正则化

存在一些共同的问题，比如 1）如何初始化参数；2）预处理数据；3）如何选择

合适的学习率，避免陷入局部最优等。

7.2.1 小批量梯度下降

目前，在训练深层神经网络时，训练数据的规模比较大。如果在梯度下降

时，每次迭代都要计算整个训练数据上的梯度需要比较多的计算资源。此外，大

规模训练集中的数据通常也会非常冗余，也没有必要在整个训练集上计算梯度。

因此，在训练深层神经网络时，经常使用小批量梯度下降算法。

用 f(x

(i)

, θ)表示一个深层神经网络，θ 为网络参数，使用小批量梯度下降进

行优化，批量大小（Batch Size）为m，即每次选取m个训练样本I

= {x

(i)

, y

(i)

}

i=1

。

在第 t 次迭代（epoch）时，损失函数关于参数 θ 的偏导数为

(θ) =

∑

i∈I

∂L

(

(i)

, f(x

(i)

, θ)

)

∂θ

, (7.1)

其中 L(·) 为可微分的损失函数。

这里的损失函数忽略

了正则化项。加上 ℓ

正

则化的损失函数参见

第7.7.1节。

第 t 次更新的梯度 g

定义为

, g

(θ

t−1

). (7.2)

使用梯度下降来更新参数，

← θ

t−1

− α g

, (7.3)

其中 α > 0 为学习率。

每次迭代时参数更新的差值 ∆θ

定义为

∆θ

, θ

− θ

t−1

. (7.4)

∆θ

和梯度 g

并不需要完全一致。∆θ

为每次迭代时参数的实际更新方向，即

= θ

t−1

+ ∆θ

。在标准的小批量梯度下降中，∆θ

= −αg

。

图7.3给出了在 MNIST数据集上，批量大小对损失下降的影响。从图7.3a可

以看出，每次迭代选取的批量样本数越多，下降效果越明显，并且下降曲线越

平滑。当每次选取一个样本时（相当于随机梯度下降），损失整体是下降趋势，

但局部看会来回震荡。从图7.3b可以看出，如果按整个数据集上的迭代次数的

来看损失变化情况，则是批量样本数越小，下降效果越明显。

邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

剩余33页未读，继续阅读

评论收藏

内容反馈

df595420469

粉丝: 26
资源: 310

chap-网络优化与正则化1

评论0

最新资源

chap-网络优化与正则化1

评论0

chap-网络优化与正则化.pdf

第7章 网络优化与正则化1

chap-网络正则化与优化1

chap7-网络优化与正则化.pdf

chap-网络优化与正则化.pptx

论文研究 - 高分辨率超声（HRU）在深层注射CHAP-透明质酸（CHAP-HA）填充剂以评估面部提拉中的应用

数字图像处理：Chap-15 多尺度图象处理.pdf

PPP-PAP-CHAP-封装协议-配置命令.doc

运筹学chap网络优化模型PPT学习教案.pptx

基于灰狼算法优化双向长短期记忆网络(GWO-BILSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数，要求

基于遗传算法(GA)优化双向长短期记忆网络(GA-BILSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数

基于遗传算法(GA)优化长短期记忆网络(GA-LSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数，要求2

基于鲸鱼算法优化双向长短期记忆网络(WOA-BiLSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数，要求

vcs-chap-程序界面设计.ppt

Macroeconomics-chap-经济增长理论.ppt

chap-数学基础.pdf

Software-Engineering-CHAP-1(软件工程第一章)(ppt文档).ppt

chap-机器学习概述.pdf

基于麻雀算法优化长短期记忆网络(SSA-LSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数，要求2018

L-M 优化算法和贝叶斯正则化算法训练 BP 网络 matlab代码

基于灰狼算法优化长短期记忆网络(GWO-LSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数，要求2018

基于麻雀算法优化双向长短期记忆网络(SSA-BILSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数，要求

L-M 优化算法和贝叶斯正则化算法训练BP网络

CHAP-12供应链管理.pptx

供应链管理（第三版）课件 CHAP-03 第三章 供应链的构建与优化.ppt

chap-前馈神经网络.pdf

数字图像处理：Chap-01 绪论.pdf

基于粒子群算法优化双向长短期记忆网络(PSO-BILSTM)的时间序列预测 优化参数为学习率，隐藏层节点个数，正则化参数，要

最新资源

第7章网络优化与正则化1

基于灰狼算法优化双向长短期记忆网络(GWO-BILSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数，要求

基于遗传算法(GA)优化双向长短期记忆网络(GA-BILSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数

基于遗传算法(GA)优化长短期记忆网络(GA-LSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数，要求2

基于鲸鱼算法优化双向长短期记忆网络(WOA-BiLSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数，要求

基于麻雀算法优化长短期记忆网络(SSA-LSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数，要求2018

基于灰狼算法优化长短期记忆网络(GWO-LSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数，要求2018

基于麻雀算法优化双向长短期记忆网络(SSA-BILSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数，要求

供应链管理（第三版）课件 CHAP-03 第三章供应链的构建与优化.ppt

基于粒子群算法优化双向长短期记忆网络(PSO-BILSTM)的时间序列预测优化参数为学习率，隐藏层节点个数，正则化参数，要