【免费】CS231n课程笔记翻译：神经网络笔记3（下）-知乎专栏1资源-CSDN文库

需积分: 0 40 浏览量更新于2022-08-03 收藏 1.12MB PDF 举报

【神经网络】神经网络是一种模仿人脑神经元工作方式的计算模型，广泛应用于计算机视觉、自然语言处理、机器学习等多个领域。在CS231n课程中，讲解了神经网络训练过程中的优化方法，包括参数更新策略。 **梯度检查** 是一种用于确保反向传播算法正确计算梯度的方法，它通过比较数值微分和解析微分的结果来验证计算的准确性。这是调试神经网络模型的重要步骤，防止因梯度计算错误导致的优化问题。 **合理性检查** 是在训练过程中监控损失函数的变化，以确保学习过程是合理的。这通常涉及到观察训练集和验证集上的准确率，以及损失函数是否随着训练迭代而降低。 **权重更新比例** 是指每层神经网络的参数更新幅度。在训练过程中，不同层的权重可能需要不同的更新步长，这可以通过观察每层激活数据和梯度分布来调整。 **动量方法** 是一种改进的梯度下降法，通过引入动量项v来加速参数更新。动量项结合了过去的梯度信息，使得参数更新更具方向性，从而在有噪声或局部最小值的梯度空间中提高收敛速度。动量μ控制着这种速度的影响，通常设置在0.5到0.99之间，并可能随着时间退火。 **Nesterov动量** 进一步优化了动量方法，它考虑到动量将如何影响参数位置，提前计算梯度。在Nesterov动量中，梯度不是基于当前位置x计算，而是基于预期的未来位置x+μv，这使得模型能更好地预测和应对地形变化。 **学习率退火** 是动态调整学习率的过程，通常随着训练的进行逐渐减小学习率，以帮助模型在训练后期更精细地调整参数，避免过拟合并提高模型泛化能力。 **二阶方法** 包括Adagrad、RMSProp等，它们根据参数的历史梯度信息来自适应地调整每个参数的学习率，这有助于解决不同参数对学习率需求不一致的问题。 **超参数调优** 是寻找最优的模型配置，包括学习率、动量、批次大小等，通常通过交叉验证来确定最佳的超参数组合。 **模型集成** 是一种提高模型性能的技术，通过结合多个模型的预测结果，可以减少单个模型的错误并提高整体预测准确度。神经网络的训练是一个涉及多方面优化的复杂过程，包括选择合适的优化算法、调整学习率和动量、监控损失函数、以及优化超参数等。这些方法的运用可以帮助我们构建更强大、更稳健的神经网络模型。在实际应用中，开发者需要不断试验和调整这些策略，以适应特定任务的需求。

CS231n

课

程笔

记

翻

译

：

神

经网络

笔

记

（下）

译

者

注

：

本

文

智

能

单

元

首

发

，

译

自

斯

坦

福

CS231n

课

程笔

记

Neural Nets notes 3

，

课

程

教

师

Andrej Karpathy

授

权

翻

译

。

本

篇

教

程

由

杜

客

翻

译

完

成

，

堃堃

和

巩子

嘉

进

行

校

对

修

改

。

译

文

含

公

式

和

代

码

，

建

议

端

阅

读

。

原

文

如

下

内

容

列

表

：

梯

度

检

查

合

理

性

（

Sanity

）

检

查

检

查

学

习

过

程

损

失

函

数

训

练

与

验

证

准

确

率

权

重

：

更

新

比

例

每

层

的

激

活

数据

与

梯

度

分

布

可

视

化

参

数

更

新



译

者

注

：下

篇

翻

译

起

始处

一

阶

（

随

机

梯

度

下

降

）

方

法

，

动

量

方

法

，

Nesterov

动

量

方

法

学

习

率

退

火

二

阶

方

法

逐

参

数

适

应

学

习

率

方

法

（

Adagrad

，

RMSProp

）

超

参

数

调

优

评

价

模

型

集

成

总

结

拓

展

引

用

杜

客

个

月

前

参

数

更

新

一

旦

能

使

用

反向

传

播

计

算

解

析

梯

度

，

梯

度

就

能

被

用

来

进

行

参

数

更

新

了

。

进

行

参

数

更

新

有

好

几

种

方

法

，

接

下

来

都

会

进

行讨论

。

深

度

网络

的

最

优

化

是

现

在

非

常

活

跃

的研

究

领

域

。

本

节

将

重

点

介

绍

一

些

公

认

有

效

的

常

用

的

技

巧

，

这

些

技

巧

都

是

在

实

践

中会

遇

到

的

。

我

们

将

简

要

介

绍

这

些

技

巧

的直

观

概

念

，

但

不

进

行

细

节

分

析

。

对

于

细

节

感

兴

趣

的

读

者

，

我

们

提

供了

一

些

拓

展

阅

读

。

随

机

梯

度

下

降

及各

种

更

新方

法

普

通

更

新

。

最

简

单

的

更

新

形式

是

沿

着

负

梯

度

方

向

改

变参

数

（

因

为

梯

度

指

向

的

是

上

升

方

向

，

但

是

我

们

通

常希

望最

小

化

损

失

函

数

）

。

假

设

有

一个

参

数

向

量

及

其

梯

度

，

那

么

最

简

单

的

更

新

的

形式

是

：

普通更新

x += - learning_rate * dx

其

中

learning_rate

是

一个

超

参

数

，

它

是

一个

固

定

的

常

量

。

当

在

整

个

数据

集

上

进

行计

算

时

，

只

要

学

习

率

足

够

低

，

总

是

能

在

损

失

函

数

上

得

到

非

负

的

进

展

。

动

量

（

Momentum

）

更

新

是

另

一个

方

法

，

这

个

方

法

在

深

度

网络

上

几

乎

总

能

得

到

更

好

的

收敛

速

度

。

该

方

法

可

以

看

成

是

从

物

理

角

度

上

对

于

最

优

化

问题

得

到

的

启发

。

损

失

值

可

以

理

解

为

是

山

的

高

度

（

因

此

高

度

势

能

是

，

所

以

有

）

。

用

随

机

数

字

初

始

化

参

数

等

同

于

在

某

个

位

置给

质

点

设

定

初

始

速

度

为

。

这

样最

优

化

过

程

可

以

看

做

是

模

拟

参

数

向

量

（

即

质

点

）

在地

形

上

滚

动

的

过

程

。

因

为作

用

于

质

点

的

力

与

梯

度

的

潜

在

能

量

（）

有

关

，

质

点

所

受

的

力

就

是

损

失

函

数

的

（

负

）

梯

度

。

还

有

，

因

为

，

所

以

在

这

个

观

点

下（

负

）

梯

度

与

质

点

的

加

速

度

是

成

比

例

的

。

注

意

这

个

理

解

和

上

面

的

随

机

梯

度

下

降

（

SDG

）

是

不

同

的

，

在

普

通

版

本

中

，

梯

度

直

接

影

响

位

置

。

而

在

这

个

版

本

的

更

新

中

，

物

理

观

点

建

议

梯

度

只

是

影

响

速

度

，

然

后

速

度

再

影

响

位

置

：

动量更新

v = mu * v - learning_rate * dx #

与速度融合

x += v #

与位置融合

在

这

里

引

入

了

一个

初

始

化

为

的

变

量

和

一个

超

参

数

。

说

得

不

恰当

一

点

，

这

个

变

量

（

）

在

最

优

化

的

过

程

中

被

看

做

动

量

（一

般

值

设

为

0.9

），

但

其

物

理

意

义

与

摩擦

系

数

更

一

致

。

这

个

变

量

有

效

地

抑

制

了

速

度

，

降

低了

系统

的

动

能

，不

然

质

点

在

山

底

永

远

不

会

停

下

来

。

通过

交

叉

验

证

，

这

个

参

数

通

常

设

为

[0.5,0.9,0.95,0.99]

中

的

一个

。

和

学

习

率

随

着

时

间

退

火

（下

文

有

讨论

）

类

似

，

动

量

剩余10页未读，继续阅读

资源推荐

资源评论

设计师马丁

粉丝: 21
资源: 299

CS231n课程笔记翻译：神经网络笔记3（下） - 知乎专栏1

最新资源

CS231n课程笔记翻译：神经网络笔记3（下） - 知乎专栏1

CS231n课程笔记翻译

CS231n课程笔记翻译：卷积神经网络笔记 - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记 2 - 知乎专栏1

CS231n课程笔记翻译：最优化笔记（下） - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记3（上） - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记1（下） - 知乎专栏1

CS231n课程笔记翻译：最优化笔记（上） - 知乎专栏1

CS231n课程笔记翻译：线性分类笔记（上） - 知乎专栏1

CS231n课程笔记翻译：线性分类笔记（下） - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记1（上） - 知乎专栏1

CS231n课程笔记翻译：线性分类笔记（中） - 知乎专栏1

CS231n课程笔记翻译：反向传播笔记 - 知乎专栏1

CS231n课程笔记翻译：卷积神经网络笔记1

CS231n课程笔记翻译：图像分类笔记（下） - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记11

CS231n课程笔记翻译：神经网络笔记1（上） - 知乎1

CS231n课程笔记翻译：神经网络笔记21

CS231n课程笔记翻译：图像分类笔记（上） - 知乎专栏1

CS231n课程笔记翻译：Python Numpy教程 - 知乎专栏1

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

BurpSuite V2024.1.1专业版

BurpLoaderKeygen.jar.zip

Chrome Header Editor 插件

Goby红队版-win-x64-2.4.7版本

软件工程导论(第六版)课后习题答案1

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

最新资源