没有合适的资源?快使用搜索试试~ 我知道了~
权重衰减(weight decay)与学习率衰减(learning rate decay).docx
需积分: 48 12 下载量 88 浏览量
2021-09-16
11:43:43
上传
评论
收藏 64KB DOCX 举报
温馨提示
试读
4页
权重衰减(weight decay)与学习率衰减(learning rate decay)
资源推荐
资源详情
资源评论
深度学习:权重衰减(weight decay)与学习率衰减(learning rate decay)
技术标签:深度学习机器学习
正则化方法:防止过拟合,提高泛化能力
避免过拟合的方法有很多:early stopping、数据集扩增(Data augmentaon)、正则化
(Regularizaon)包括 L1、L2(L2 regularizaon 也叫 weight decay),dropout。
权重衰减(weight decay)
L2 正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,
所以权重衰减也叫 L2 正则化。
在损失函数中,weight decay 是放在正则项(regularizaon)前面的一个系数,正则项一般
指示模型的复杂度,所以 weight decay 的作用是调节模型复杂度对损失函数的影响,若
weight decay 很大,则复杂的模型损失函数的值也就大。
L2 正则化与权重衰减系数
L2 正则化就是在代价函数后面再加上一个正则化项:
其中 C0 代表原始的代价函数,后面那一项就是 L2 正则化项,它是这样来的:所有参数 w
的平方的和,除以训练集的样本大小 n。λ 就是正则项系数,权衡正则项与 C0 项的比重。
另外还有一个系数 1/2,1/2 经常会看到,主要是为了后面求导的结果方便,后面那一项求
导会产生一个 2,与 1/2 相乘刚好凑整为 1。系数 λ 就是权重衰减系数。
为什么可以对权重进行衰减
我们对加入 L2 正则化后的代价函数进行推导,先求导:
可以发现 L2 正则化项对 b 的更新没有影响,但是对于 w 的更新有影响:
资源评论
*Lisen
- 粉丝: 99
- 资源: 45
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功