忘掉Xavier初始化吧！最强初始化方法ZerO来了.pdf_xavier初始化公式资源-CSDN文库

版权申诉

156 浏览量 2023-08-12 21:57:41 上传评论收藏 1.38MB PDF 举报

资源推荐

资源详情

资源评论

2023/6/28 16:44

忘掉Xavier初始化吧！最强初始化方法ZerO来了

https://mp.weixin.qq.com/s/jDyqQfdyRbJ81-Z24OyMYw

1/11

忘掉Xavier初始化吧！最强初始化方法ZerO来了

文  | 小戏

谈及最典型的深度学习模型的训练，脑海里浮现的格式化的套路是什么？给定一个问题，给

定一个数据集，弯弯绕绕确定好选择的神经网络的架构，然后上手调参，接下来的工作

彷佛像是固定的重复工作，随机初始化参数，迭代训练，评估结果，直到一个模型新鲜

出炉。

其实认真反思一下这套流水线的作业方法，其中的随机性主要集中在随机初始化参数上，如果

再问一个为什么，为什么我们要随机初始化参数呢？答案可能是因为梯度下降法总是需要给这

些权重参数一个值，如果我们延用逻辑回归中令初始权重都为 0 的做法，在梯度下降的过程里

将无法对权重带来任何更新。那么一个简单的方式就是随机，但是随机是一个相对模糊的概

念，但是显然，无论是理论上还是经验上都可以观察到，随机初始化权重的好坏可以极大的

影响神经网络模型的收敛，同时，过大的参数将会导致梯度爆炸，而过小的参数将会导致梯

度消失，方差的不合理也会导致神经网络模型难以稳定，因此，一个合理的规范的参数对模型

的训练而言变得尤为重要，从而使得各种 Norm 方法在深度学习中扮演着越来越重要的角色。

小戏 2022-12-15 11:15 发表于四川

原创

夕小瑶科技说

2023/6/28 16:44

忘掉Xavier初始化吧！最强初始化方法ZerO来了

https://mp.weixin.qq.com/s/jDyqQfdyRbJ81-Z24OyMYw

2/11

基于这些经验式的法则，便用于了种种参数随机初始化的方法，诸如 Xavier 初始化，He 初始

化等等，这些参数初始化的方式的优势几乎都集中于去稳定一个良好的方差，尽管在很大

程度上解决了参数“稳定性”的问题，但是“ 随机性” 的问题仍然存在，随机数种子也不可避免的

成为了一种另类的“超参数”。

而今天的这篇文章，则切换了思路，如果可以用一种完全确定的参数初始化方法，去满足

这些对于初始权重在信号传播与梯度下降里的要求，那么是不是可以在一举解决参数随

机初始化的问题，为模型带来随机初始化参数所不具备的更好的性能呢？这篇 TMLR 的论

文提出了一种名为 ZerO 的初始化方法，仅仅使用 0 和 1 做初始化，在抛弃了 Batch Norm 层

的情况下仍然可以训练 500 层级别的模型，并且应用于 ResNet 在多个数据集上刷新了 SOTA

，并证明了这种确定性的初始化方法的诸多好处。

论文题目：

ZerO Initialization:Initializing Neural Networks with only Zeros andOnes

论文链接：

https://openreview.net/pdf ?id=1AxQpKmiTc

1.从恒等初始化开始

困扰随机初始化方法的很关键的一点在于如何使得神经网络各层参数之间的方差不发生变

化，那么一种简单的思路便是让各层之间的权重完全相等，并且使得上一层的输入“完整” 的传

入下一层，这样方差便不再成为一个需要考虑的问题。那么很自然的，便是将神经网络的权

重层初始化为一个单位矩阵，这种初始化方法被称为恒等初始化（ Identity

Initialization ）。在理论上恒等初始化具有相当好的性质，这种性质被称为动力等距

剩余10页未读，继续阅读

内容反馈

版权申诉

地理探险家

粉丝: 982
资源: 5416

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip