RNN+LSTM学习资料.pdf

所需积分/C币:13 2019-06-17 09:22:29 2.8MB PDF

对RNN及其改进版本LSTM的的介绍,和其中的运行机制的说明
RNN的结构 口简单来看,把序列按时间展开 为了体现RNN的循环性,可以将多层fod起来 o每个部分看做一个ce,处理过程一模一样, t-1 t W W t+1 Unfold U x x t+I 背景:要完成一个任务( Language model):一句话知道出现的若干个词情况下, 出现下一个词会出现什么。 (有一个序列,在这个序列前n个 element知道情况下去推断下一个 element) 是 中国人 t+I W ○0O t+I Unfold W W W U x x x x 序列在当前ep的输入我 口X1是时间t处的输入 是 中国 人 口S是时间t处的“记忆”,S=fUX+WS_1),f可以是tanh等 口0是时间t出的输出,比如是预测下个词的话,可能是 softmax输出的属于每个候选词的概率,0= softmax (Vs:) 口可以把隐状态S视作“记忆体”,捕捉了之前时间点上 的信息。 口输出0由当前时间及之前所有的“记忆”共同计算得到。 口很可惜,实际应用中,St并不能捕捉和保留之前所有信 息(记忆有限?)短阵t维度容量有限, 口不同于CN,这里的RNN其实整个神经网络都共享一组参 数(U,V,W),极大减小了需要训练和预估的参数量 口图中的0在有些任务下是不存在的,比如文本情感分析, 其实只需要最后的 output结果就行 文本分类,在当前任何部分都可以做总结,输出结果,但 是不一定准确。任务是需要看完整个文本给出一个结果。 口双向RNN 口有些情况下,当前的输出不只依赖于之前的序列元素, 还可能依赖之后的序列元素 口比如从一段话踢掉部分词,让你补全 口直观理解:双向RNN叠加 不一样的W和V让它捕捉更多信息 hr=f(Wx+Vh-1+b) h h,=f(Wx,+Vhi++b) 非图 y,=g(Uthr; h]+c) 两个 memory做拼接 x 口深层双向 RNN Deep:五年级的知识变难了,一周内掌握不了→多思考下 口和双向RN的区别是每一步/每个时间点我们设定多层 结构 做完三轮复习的知识解这道题 (3) 同章前轮复习同轮复习前章 h=f(W收+v(h-+b) (2) ,一”一”一h-f(Wh+ ()+()+() h++b) →(L)+(L) h y,=g(U[hr hr ]+c) A x T-1 T+1T+2 数列三角函数解析几何排列组合 RNN与BPT算法 口MLP(DN)与CNN用BP算法求偏导 口BPTT和BP是一个思路,只不过既然有step,就和时间t有关系 yt 1 ht W W Xt1 t X t+1 ●●●。|●●● ●●● BPTT( BackPropagation Through Time)基于时间的反向传播(调参) En E E? E E 我们的目标是计算误差关于参 Som×的分类器预测4W个词中的哪个 数U、V和W的梯度,然后使 用梯度下降法学习出好的参数。 80 81 S2 83 84 梯度下降,使。ss值最小 要求我们去求 o ossfunction对于W的偏 1 2 3 E(y,)=- log it交叉损失 cross entropy 导 每一个时间点都有一个输出每个输出都以去计算osE0E3Oyg0s3 求偏导的过程在这一 E(v,)=∑E(v,i) ow aj3 as3 aW 层完成不了,必须用 BPTT,不能用BP 但是83=tanh(Uxt+Ws2)依赖于s2 yt log yt 镟式法则 完成整个句子预测:沿着时把每个位置的os在起3、0B300s08k前追溯 OE ∑ aE aE3 BPTT:沿着时间铀往 k=0 di3 ass ask aW En E E? E E Som×的分类器预测4W个词中的哪个 预测出来的词 80 81 S2 83 84 o 1 2 3 4 E(y,)=- y log it交叉熵损失 cross entropy loss aE aE3 ai3 ass t时刻上正确的词 E(y,) aw aj3 ass aW 但是83=tanh(Uxt+Ws2)依赖于s2 yt log yt 镟式法则 器=器 aE3 3、aE3Ojs S3 aSk k=0 di3 ass ask aW

...展开详情
img
BruceZhou95
  • GitHub

    绑定GitHub第三方账户获取
  • 签到新秀

    累计签到获取,不积跬步,无以至千里,继续坚持!

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐