没有合适的资源?快使用搜索试试~ 我知道了~
忘掉Xavier初始化吧!最强初始化方法ZerO来了.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 156 浏览量
2023-08-12
21:57:41
上传
评论
收藏 1.38MB PDF 举报
温馨提示
试读
11页
忘掉Xavier初始化吧!最强初始化方法ZerO来了.pdf
资源推荐
资源详情
资源评论
2023/6/28 16:44
忘掉Xavier初始化吧!最强初始化方法ZerO来了
https://mp.weixin.qq.com/s/jDyqQfdyRbJ81-Z24OyMYw
1/11
忘掉Xavier初始化吧!最强初始化方法ZerO来了
文 | 小 戏
谈及最典型的深度学习模型的训练,脑海里浮现的格式化的套路是什么?给 定 一 个 问 题 , 给
定 一 个 数 据 集 , 弯 弯 绕 绕 确 定 好 选 择 的 神 经 网 络 的 架 构 , 然 后 上 手 调 参 , 接 下 来 的 工 作
彷 佛 像 是 固 定 的 重 复 工 作 , 随 机 初 始 化 参 数 , 迭 代 训 练 , 评 估 结 果 , 直 到 一 个 模 型 新 鲜
出 炉 。
其实认真反思一下这套流水线的作业方法,其中的随机性主要集中在随机初始化参数上,如果
再问一个为什么,为什么我们要随机初始化参数呢?答案可能是因为梯度下降法总是需要给这
些权重参数一个值,如果我们延用逻辑回归中令初始权重都为 0 的做法,在梯度下降的过程里
将无法对 权重带 来任何更新 。那么 一个简单的 方式就 是随机,但 是随机 是一个相对 模糊的 概
念,但是显然,无论是理论上还是经验上都可以观察到,随 机 初 始 化 权 重 的 好 坏 可 以 极 大 的
影 响 神 经 网 络 模 型 的 收 敛 ,同时,过大的参数将会导致梯度爆炸,而过小的参数将会导致梯
度消失,方差的不合理也会导致神经网络模型难以稳定,因此,一个合理的规范的参数对模型
的训练而言变得尤为重要,从而使得各种 Norm 方法在深度学习中扮演着越来越重要的角色。
小戏 2022-12-15 11:15 发表于四川
原创
夕小瑶科技说
2023/6/28 16:44
忘掉Xavier初始化吧!最强初始化方法ZerO来了
https://mp.weixin.qq.com/s/jDyqQfdyRbJ81-Z24OyMYw
2/11
基于这些经验式的法则,便用于了种种参数随机初始化的方法,诸如 Xavier 初始化,He 初始
化等等,这 些 参 数 初 始 化 的 方 式 的 优 势 几 乎 都 集 中 于 去 稳 定 一 个 良 好 的 方 差 ,尽管在很大
程度上解决了参数“稳定性”的问题,但是“ 随机性” 的问题仍然存在,随机数种子也不可避免的
成为了一种另类的“超参数”。
而今天的这篇文章,则切换了思路,如 果 可 以 用 一 种 完 全 确 定 的 参 数 初 始 化 方 法 , 去 满 足
这 些 对 于 初 始 权 重 在 信 号 传 播 与 梯 度 下 降 里 的 要 求 , 那 么 是 不 是 可 以 在 一 举 解 决 参 数 随
机 初 始 化 的 问 题 , 为 模 型 带 来 随 机 初 始 化 参 数 所 不 具 备 的 更 好 的 性 能 呢 ?这篇 TMLR 的论
文提出了一种名为 ZerO 的初始化方法,仅仅使用 0 和 1 做初始化,在抛弃了 Batch Norm 层
的情况下仍然可以训练 500 层级别的模型,并且应用于 ResNet 在多个数据集上刷新了 SOTA
,并证明了这种确定性的初始化方法的诸多好处。
论 文 题 目 :
ZerO Initialization:Initializing Neural Networks with only Zeros andOnes
论 文 链 接 :
https://openreview.net/pdf ?id=1AxQpKmiTc
1.从恒等初始化开始
困扰随机初始化方法的很关键的一点在于如 何 使 得 神 经 网 络 各 层 参 数 之 间 的 方 差 不 发 生 变
化 ,那么一种简单的思路便是让各层之间的权重完全相等,并且使得上一层的输入“完整” 的传
入下一层,这样方差便不再成为一个需要考虑的问题。那么很自然的,便是将 神 经 网 络 的 权
重 层 初 始 化 为 一 个 单 位 矩 阵 , 这 种 初 始 化 方 法 被 称 为 恒 等 初 始 化 ( Identity
Initialization ) 。 在 理 论 上 恒 等 初 始 化 具 有 相 当 好 的 性 质 , 这 种 性 质 被 称 为 动 力 等 距
2023/6/28 16:44
忘掉Xavier初始化吧!最强初始化方法ZerO来了
https://mp.weixin.qq.com/s/jDyqQfdyRbJ81-Z24OyMYw
3/11
(Dynamical Isometry),最早由 Saxe 等人在2014年提出,它描述了当输入输出的雅可比矩阵
的奇 异值分 布 全部在 1 附 近时, 即 ( 这 里 表 示 输出向 量, 表 示 输入向 量)
时,神经 网络具 有稳 定的信 号传 播以及 梯度下 降的 行为, 可以 期待具 有良好 的训 练表现 。显
然,单位矩阵 天然的满足动力等距的条件,但是恒等初始化优美的理论推导却都建立在各
层 的 维 度 是 相 等 的 假设之上,但显然在实际中,这种假设有些过强使得它没法真正用于实际
工作之中。
从 恒 等 初 始 化 的 思 想 出 发 , 一 种 显 然 的 改 进 方 式 是 部 分 单 位 矩 阵 ( Partial Identity
Matrix) ,它的定义十分自然,对于行列中“超出”的部分补零即可:
然而,当使用部分单位矩阵在训练诸如 ResNet 等经典结构中时,往 往 将 会 出 现 一 种 所 谓 “训
练 衰 减 ( Training D egeneracy) ”的 现 象 ,这种现象可以做如下描述:
假设 是 一 个 层 的 神 经 网 络 , 对 于 有 , 而 对 于 , 有
,对于 有 。这里的 是神经网络的参数矩阵, 具有相同
的隐藏层维度 ,输入数据维度为 ,输出数据的维度为 ,此处假设 ,
定义余项 ,令 为第 层的激活函数,当初始化 , 时,
对于任意 ,将有:
这即表明,无 论 隐 藏 层 维 度 有 多 高 , 神 经 网 络 的 维 度 仅 仅 依 赖 于 输 入 数 据 的 维 度
, 从 而 极 大 的 限 制 了 神 经 网 络 的 表 达 能 力 。
剩余10页未读,继续阅读
资源评论
地理探险家
- 粉丝: 982
- 资源: 5416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功