216 第七章 深度学习中的正则化 比较式 (7.40)和式 (7.42),我们能够发现,如果超参数 ϵ,α 和 τ 满足如下: ( − ϵΛ)τ = (Λ+ α )−1α, (7.43) 那么 L2 正则化和提前终止可以被看作是等价的(至少在目标函数的二次近似下)。 进一步取对数,使用 (1 + x) 的级数展开,我们可以得出结论:如果所有 λi 是 小的(即 ϵλi ≪ 1 且 λi/α≪ 1),那么 τ ≈ 1 ϵα , (7.44) α ≈ 1 τϵ . (7.45) 也就是说,在这些假设下,训练迭代次数 τ 起着与 L2 参数成反比的作用,τϵ 的倒 数与权重衰减系数的作用类似。 对应显著曲率(目标函数)方向的参数值正则化小于小曲率方向。当然,在提 前终止的情况下,这实际上意味着对应于显著曲率方向的参数比较小的曲率方向的 参数更早地停止学习。 本节中的推导表明长度为 τ 的轨迹结束于 L2正则化目标的极小点。当然,提前 终止比简单的轨迹长度限制更丰富;相反,提前终止通常涉及监控验证集误差,以便 在空间特别好的点处终止轨迹。因此提前终止比权重衰减更具有优势,提前终止能 自动确定正则化的正确量,而权重衰减需要多个训练实验测试其超参数的不同值。 7.9 参数绑定和参数共享 目前为止,本章讨论对参数添加约束或惩罚时,一直是相对于固定的区域或点。 例如,L2正则化(或权重衰减)对参数偏离零的固定值进行惩罚。然而,有时我们 可能需要其他的方式来表达我们对模型参数适当值的先验知识。有时候,我们可能 无法准确地知道应该使用什么样的参数,但我们根据领域和模型结构方面的知识得 知模型参数之间应该存在一些相关性。 我们经常想要表达的一种常见依赖是某些参数应当彼此接近。考虑以下情形: 我们有两个模型执行相同的分类任务(具有相同类别),但输入分布稍有不同。形式 地,我们有参数为 (A) 的模型 A 和参数为 (B) 的模型 B。这两种模型将输入映射 到两个不同但相关的输出:ŷ(A) = f( (A), ) 和 ŷ(B) = f( (B), )。
- 粉丝: 45
- 资源: 4137
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助