参数绑定和参数共享-彩色uml建模(四色原型)objectmodelingincolor_petercoadericlefebvrejeffdeluca著资源-CSDN文库

需积分: 29 21 浏览量 2021-07-12 00:34:40 上传评论收藏 37.78MB PDF 举报

216 第七章深度学习中的正则化比较式 (7.40)和式 (7.42)，我们能够发现，如果超参数 ϵ,α 和 τ 满足如下： ( − ϵΛ)τ = (Λ+ α )−1α, (7.43) 那么 L2 正则化和提前终止可以被看作是等价的（至少在目标函数的二次近似下）。进一步取对数，使用 (1 + x) 的级数展开，我们可以得出结论：如果所有 λi 是小的（即 ϵλi ≪ 1 且 λi/α≪ 1），那么 τ ≈ 1 ϵα , (7.44) α ≈ 1 τϵ . (7.45) 也就是说，在这些假设下，训练迭代次数 τ 起着与 L2 参数成反比的作用，τϵ 的倒数与权重衰减系数的作用类似。对应显著曲率（目标函数）方向的参数值正则化小于小曲率方向。当然，在提前终止的情况下，这实际上意味着对应于显著曲率方向的参数比较小的曲率方向的参数更早地停止学习。本节中的推导表明长度为 τ 的轨迹结束于 L2正则化目标的极小点。当然，提前终止比简单的轨迹长度限制更丰富；相反，提前终止通常涉及监控验证集误差，以便在空间特别好的点处终止轨迹。因此提前终止比权重衰减更具有优势，提前终止能自动确定正则化的正确量，而权重衰减需要多个训练实验测试其超参数的不同值。 7.9 参数绑定和参数共享目前为止，本章讨论对参数添加约束或惩罚时，一直是相对于固定的区域或点。例如，L2正则化（或权重衰减）对参数偏离零的固定值进行惩罚。然而，有时我们可能需要其他的方式来表达我们对模型参数适当值的先验知识。有时候，我们可能无法准确地知道应该使用什么样的参数，但我们根据领域和模型结构方面的知识得知模型参数之间应该存在一些相关性。我们经常想要表达的一种常见依赖是某些参数应当彼此接近。考虑以下情形：我们有两个模型执行相同的分类任务（具有相同类别），但输入分布稍有不同。形式地，我们有参数为 (A) 的模型 A 和参数为 (B) 的模型 B。这两种模型将输入映射到两个不同但相关的输出：ŷ(A) = f( (A), ) 和 ŷ(B) = f( (B), )。

资源推荐

资源评论