没有合适的资源?快使用搜索试试~ 我知道了~
1. 梯度爆炸的影响 在一个只有一个隐藏节点的网络中,损失函数和权值w偏置b构成error surface,其中有一堵墙,如下所示 损失函数每次迭代都是每次一小步,但是当遇到这堵墙时,在墙上的某点计算梯度,梯度会瞬间增大,指向某处不理想的位置。如果我们使用缩放,可以把误导控制在可接受范围内,如虚线箭头所示 2. 解决梯度爆炸问题的方法 通常会使用一种叫”clip gradients “的方法. 它能有效地权重控制在一定范围之内. 算法步骤如下。 首先设置一个梯度阈值:clip_gradient 在后向传播中求出各参数的梯度,这里我们不直接使用梯度进去参数更新,我们求这些梯度的l2范数 然后比
资源详情
资源评论
资源推荐
基于梯度爆炸的解决方法基于梯度爆炸的解决方法:clip gradient
1. 梯度爆炸的影响梯度爆炸的影响
在一个只有一个隐藏节点的网络中,损失函数和权值w偏置b构成error surface,其中有一堵墙,如下所示
损失函数每次迭代都是每次一小步,但是当遇到这堵墙时,在墙上的某点计算梯度,梯度会瞬间增大,指向某处不理想的位
置。如果我们使用缩放,可以把误导控制在可接受范围内,如虚线箭头所示
2. 解决梯度爆炸问题的方法解决梯度爆炸问题的方法
通常会使用一种叫”clip gradients “的方法. 它能有效地权重控制在一定范围之内.
算法步骤如下。
首先设置一个梯度阈值:clip_gradient
在后向传播中求出各参数的梯度,这里我们不直接使用梯度进去参数更新,我们求这些梯度的l2范数
然后比较梯度的l2范数||g||与clip_gradient的大小
如果前者大,求缩放因子clip_gradient/||g||, 由缩放因子可以看出梯度越大,则缩放因子越小,这样便很好地控制了梯度的范
围
最后将梯度乘上缩放因子便得到最后所需的梯度
weixin_38689922
- 粉丝: 6
- 资源: 915
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0