从前馈到反馈：解析循环神经网络（RNN）及其tricks.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

NLP

机器学习

120 浏览量 2023-10-18 18:01:39 上传评论收藏 233KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

从前馈到反馈：解析循环神经网络（RNN）及其tricks.rar （1个子文件）

从前馈到反馈：解析循环神经网络（RNN）及其tricks.pdf 259KB

从前馈到反馈：解析循环神经⽹络（RNN）及其tricks

原创

⼣⼩瑶

2017-08-20⼣⼩瑶的卖萌屋

好像已经有两周没有更新啦。最后这⼏天都不敢打开订阅号后台了，怕⼀打开发现掉了⼏百个粉丝的话就难过死了

T_T。然⽽⼩⼣发现你们并没有离开，感动的差点哭出来，都感觉再不认真写⼀篇⽂章就太对不起⼤家的等待啦。

⽽这两周，经历的事情蛮多的。为了凑下⼀季的房租，接了个私活，要死要活的做完了QAQ。⽽且还发现了⼀个特

别好的学习平台，闭关修炼了⼀周，改天跟你们分享⼀下〜下⾯开始正⽂啦，不要太激动哦。

为什么需要反馈？

在上⼀篇《前馈⽹络与卷积⽹络》中，⼩⼣讲解了前馈⽹络中的战⽃机——卷积神经⽹络（CNN）更关注局部特征

的提取，⽐如在句⼦级情感分类的任务中，往往找出句⼦中可以表现情感的情感词就能完成这个句⼦的情感极性分

类，⽽情感词之前的词并不会对决策结果起到多⼤的影响。还是习惯性的举出栗⼦ ：

⽐如 “⼣⼩瑶今天不开⼼了。”

为了判断这个句⼦的情感极性，只需要让分类器能识别出“不开⼼”是个负极性的词，其他词是偏中性词就可以了。

⽽“不开⼼”前⾯的中性词是“今天”还是“有时”，对“不开⼼”的情感极性并不会有多⼤的影响，也不会对整个句⼦的情感

极性有多⼤影响。因此，当我们把该句⼦中的各个词条依次输⼊给模型去分类时，并不需要去“瞻前顾后”，因此使⽤

⼀个关注局部的前馈神经⽹络往往表现更佳。⽽从最近三四年的论⽂来看，在句⼦级情感分类问题上，也确实是卷

积⽹络⽐递归⽹络和循环⽹络更容易引领state-of-arts。

然⽽，还有⼀些任务的labels之间会有很强的相关性，⽐如命名实体识别（NER）任务，我们想要识别出⽂本中的地

址时：

“据报道，在 2016年，有⼀只可爱的⼩狗狗在北京市海淀区番茄猫咪⼩区失踪。” （什么⻤栗⼦）

这句话中的地址是“北京市海淀区番茄猫咪⼩区”，因此我们的⽬标是给这⼏个词条贴上“这是地址”的标签，给其他

词条贴上“这不是地址”的标签。

显然，如果⽤CNN去做的话，很容易把“番茄”识别成⾮地址词，毕竟想要识别出来它的话，就要同时考虑“海淀

区”“猫咪”“⼩区”这三个相邻的上下⽂词条，也就是说CNN的卷积滤波器的⻓度要最少达到4才有较⼤的可能性正确标

注这个句⼦的labels。⽽对更⻓的地址，那代价就更⼤了，总不能⽆限增⻓滤波器的⻓度呐。所以⼀个更靠谱的办法

是让模型在当前位置的输出再反馈给模型，来帮助模型做下⼀位置的决策！

这样的有反馈单元的模型在做当前位置的决策的时候，会同时考虑前⾯所有位置/时间点的情况（直接考虑上⼀时间点，

⼜由于上⼀时间点也考虑了上上时间点，因此间接考虑了上⼀时间点前⾯所有的时间点），因此有反馈单元的模型在判断“番茄”是不

是地址时，它通过前⾯积累的 “据报道，在2016年，有⼀只可爱的⼩狗狗在北京市海淀区” 发现下⼀个词 “番茄”

是⾮地址词的概率并不⼤（因为训练集中很少会出现主语+“在”+地址1+地址2+⾮地址名词+...的情况，倒是经常出现

主语+“在”+地址1+地址2+地址3+...的情况），从⽽可以完成正确决策。

相⽐之下，在卷积⽹络中，由于它视野有限，不瞻前顾后，所以它更可能觉得“地址+⾮地址名词”⾮常正常，因为⽐

如“北京糖葫芦”，“美国猫”也很常⻅嘛〜进⽽导致了错误决策。这也是为什么在该任务中，有反馈单元的神经⽹络⽐

前馈⽹络更容易成为state-of-art。

数学上如何描述反馈？

显然这样模型就不再是前馈的了，⽽是将模型的输出也作为输⼊来丢进模型。回顾⼀下，前馈⽹络的时候简单的前

馈公式是这样的：

O=f( X * W+b )

其中W和b是模型的参数，X是当前的输⼊，f(·)是激活函数，*是矩阵乘法，O是当前的输出。即输出等于输⼊经过

线性与⾮线性映射后的结果。

加上反馈单元后，公式就变成了：

=f(X * W + O

t-1

* V+ b)

其中W、V、b是模型的参数，下标t代表当前的序列位置∕时间点，t-1代表上个位置/上个时间点，X是当前的输

⼊，f(·)是激活函数，*是矩阵乘法，O是模型输出。

简单的加上反馈单元的这个模型，就叫做循环神经⽹络（RNN,R=Recurrent）。这也是后续LSTM、GRU等⻔限循

环⽹络的基础模型。

RNN是浅层的还是深层的？

从前向过程来看，貌似是浅层的。⽐如1000层的前馈神经⽹络，在做“xxxxx”的命名实体识别这个前⽂例⼦的时候，

是每⼀个词条都要跑⼀遍1000层的⽹络才能出这个词条的标注结果。⽽简单的循环⽹络来说，跑⼀层就会出⼀个标

注结果。因此看起来是浅层的。然⽽，在计算序列的后⼏个位置的label的时候，显然也积累了前⾯所有位置的计算

结果，因此这样看⼜是深层的。

从反向过程看，也就是从优化的⻆度来看，RNN是深层的。因为在进⾏每⼀次误差反向传播的时候，误差要从前馈

⽹络的第1000层开始逐层传回第⼀层，误差在循环⽹络中也要从序列的末端输出⼀直传回到序列的⾸端。因此序列

是1000⻓度的话，在RNN中误差就相当于传递了1000层。

这个争论也被公认为是争论。⼩⼣就不参与讨论了。我们只关注这样会带来什么特殊的问题。

RNN的问题

⾸先，从浅层的⻆度去看RNN的前向过程，就可以认为它只有⼀层权重矩阵W（我们先不管V）。由此可⻅从深层的⻆

度去看RNN的前向过程，就可以认为RNN是各个层的权重矩阵相同的深层⽹络。我们忽略V和激活函数，就可以近

似的认为⽹络⼀共有T层（T等于序列的⻓度），那么第t层的输出就是连乘t次W，也就是W

！

在《线性代数（⼆）》中，⼩⼣讲过矩阵可以⽤它的特征值矩阵和特征向量矩阵去近似，即

W≈Vdiag(λ)V

-1

所以W

就可以展开成(Vdiag(λ)V

-1

)(Vdiag(λ)V

-1

)...，约掉中间的⼀堆V

-1

V，就是

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

从前馈到反馈：解析循环神经网络（RNN）及其tricks.rar

外汇汇率预测的一种前馈神经网络方法及其应用.pdf

从前馈到反馈：解析循环神经网络（RNN）及其tricks.pdf

前馈神经网络及其应用.pdf

深度学习500问-Tan-06第六章 循环神经网络（RNN）1

神经网络（四）前馈神经网络.pdf

深入理解前馈神经网络：从基础到实践

神经网络第3讲 前馈神经网络-感知器.doc

不要再纠结卷积的公式啦！0公式深度解析全连接前馈网络与卷积神经网络.rar

基于C#实现前馈神经网络仿真（源码）.rar

matlab神经网络和优化算法：58 使用前馈神经网络预测样本数据.zip

深入神经网络案例：7 使用前馈神经网络预测样本数据.zip

前馈神经网络（Feedforward neural network）.pdf

基于前馈后馈神经网络的手写字识别matlab仿真,数据库为mnist标准库+代码仿真操作视频

matlab神经网络和优化算法：58使用前馈神经网络预测样本数据.zip

第二章 深度前馈神经网络-感知机.ppt

rnn_intrduction.pdf

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

行人跌倒数据集（VOC格式）

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

全新的SOTA模型YOLOv9

YOLOV5 + 双目相机实现三维测距（新版本）

YOLOV5口罩检测数据集+代码+模型 2000张标注好的数据+教学视频.zip

pycharm连接autodl服务器（yolov8训练自己的数据集）

Deep Learning Tuning Playbook（中译版）

最新资源

深度学习500问-Tan-06第六章循环神经网络（RNN）1

神经网络第3讲前馈神经网络-感知器.doc

第二章深度前馈神经网络-感知机.ppt