没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
18页
在机器学习领域,超参数调整是一种关键的技术,用于优化学习算法的性能。通过调整算法的超参数,比如学习率、迭代次数、树的深度等,可以显著改善模型的训练效果和预测准确率。超参数调整的目的是找到一组最佳的参数设置,使得机器学习模型能够在特定任务上达到最优的性能表现。 超参数调整对于实现高效的机器学习模型至关重要。不同的超参数设置可以导致模型性能的显著差异。例如,在深度学习模型中,学习率的选择可以影响模型训练的速度和稳定性,而在支持向量机(SVM)中,核函数的选择和正则化参数的调整对模型的分类或回归准确度有重要影响。因此,超参数调整成为了提高模型效果、优化计算资源使用和增强模型泛化能力的重要手段。 超参数调整通常采用不同的策略,包括网格搜索、随机搜索和基于模型的优化方法,如贝叶斯优化。这些方法通过系统地探索参数空间,评估不同参数组合对模型性能的影响,从而找到最优的超参数设置。这个过程不仅有助于提升模型性能,还可以增进对模型行为和数据特性的理解。 总之,超参数调整是机器学习模型开发中的一个关键环节,它通过精细调整算法参数来优化模型性能。这一过程不仅需要系统的方法来探索参数空间。
资源推荐
资源详情
资源评论
第十四章 超参数调整
14.1 写在前面
14.2 超参数概念
14.2.1 什么是超参数,参数和超参数的区别?
14.2.2 神经网络中包含哪些超参数?
14.2.3 为什么要进行超参数调优?
14.2.4 超参数的重要性顺序
14.2.5 部分超参数如何影响模型性能?
14.2.6 部分超参数合适的范围
14.3 网络训练中的超参调整策略
14.3.1 如何调试模型?
14.3.2 为什么要做学习率调整?
14.3.3 学习率调整策略有哪些?
14.3.4 极端批样本数量下,如何训练网络?
14.4 合理使用预训练网络
14.4.1 什么是微调(fine-tune)
14.4.2 微调有哪些不同方法?
14.4.3 微调先冻结底层,训练顶层的原因?
14.4.4 不同的数据集特性下如何微调?
14.4.4 目标检测中使用预训练模型的优劣?
14.4.5 目标检测中如何从零开始训练(train from scratch)?
14.5 如何改善 GAN 的性能
14.6 AutoML
14.6.1 什么是AutoML?
14.6.2 自动化超参数搜索方法有哪些?
14.6.3 什么是神经网络架构搜索(NAS)
14.6.4 NASNet的设计策略
14.6.5 网络设计中,为什么卷积核设计尺寸都是奇数
14.6.6 网络设计中,权重共享的形式有哪些,为什么要权重共享
第十四章 超参数调整
Markdown Revision 1;
Date: 2018/10/25
Editor: 乔成磊-同济大学,王超锋
Contact: qchl0318@163.com,syusuke0516@163.com
Updater: sjsdfg,王超锋
14.1 写在前面
关于训练深度学习模型最难的事情之一是你要处理的参数的数量。无论是从网络本身的层宽(宽
度)、层数(深度)、连接方式,还是损失函数的超参数设计和调试,亦或者是学习率、批样本数量、
优化器参数等等。这些大量的参数都会有网络模型最终的有效容限直接或者间接的影响。面对如此众多
的参数,如果我们要一一对其优化调整,所需的无论是时间、资源都是不切实际。结果证实一些超参数
比其它的更为重要,因此认识各个超参数的作用和其可能会造成的影响是深度学习训练中必不可少的一
项重要技能。
超参数调整可以说是深度学习中理论和实际联系最重要的一个环节。目前,深度学习仍存在很多不可
解释的部分,如何设计优化出好的网络可以为深度学习理论的探索提供重要的支持。超参数调整一般分
为手动调整和自动优化超参数两种。读者可先浏览思维导图,本章节不会过多阐述所有超参数的详细原
理,如果需要了解这部分,您可以翻阅前面的基础章节或者查阅相关文献资料。当然,下面会讲到的一
些超参数优化的建议是根据笔者们的实践以及部分文献资料得到认知建议,并不是非常严格且一定有效
的,很多研究者可能会很不同意某些的观点或有着不同的直觉,这都是可保留讨论的,因为这很依赖于
数据本身情况。
14.2 超参数概念
14.2.1 什么是超参数,参数和超参数的区别?
区分两者最大的一点就是是否通过数据来进行调整,模型参数通常是有数据来驱动调整,超参数则不
需要数据来驱动,而是在训练前或者训练中人为的进行调整的参数。例如卷积核的具体核参数就是指模
型参数,这是有数据驱动的。而学习率则是人为来进行调整的超参数。这里需要注意的是,通常情况下
卷积核数量、卷积核尺寸这些也是超参数,注意与卷积核的核参数区分。
14.2.2 神经网络中包含哪些超参数?
通常可以将超参数分为三类:网络参数、优化参数、正则化参数。
网络参数:可指网络层与层之间的交互方式(相加、相乘或者串接等)、卷积核数量和卷积核尺寸、
网络层数(也称深度)和激活函数等。
优化参数:一般指学习率(learning rate)、批样本数量(batch size)、不同优化器的参数以及部
分损失函数的可调参数。
正则化:权重衰减系数,丢弃法比率(dropout)
14.2.3 为什么要进行超参数调优?
本质上,这是模型优化寻找最优解和正则项之间的关系。网络模型优化调整的目的是为了寻找到全局
最优解(或者相比更好的局部最优解),而正则项又希望模型尽量拟合到最优。两者通常情况下,存在
一定的对立,但两者的目标是一致的,即最小化期望风险。模型优化希望最小化经验风险,而容易陷入
过拟合,正则项用来约束模型复杂度。所以如何平衡两者之间的关系,得到最优或者较优的解就是超参
数调整优化的目的。
14.2.4 超参数的重要性顺序
首先, 学习率,损失函数上的可调参数。在网络参数、优化参数、正则化参数中最重要的超参数
可能就是学习率了。学习率直接控制着训练中网络梯度更新的量级,直接影响着模型的有效容限能
力;损失函数上的可调参数,这些参数通常情况下需要结合实际的损失函数来调整,大部分情况下
这些参数也能很直接的影响到模型的的有效容限能力。这些损失一般可分成三类,第一类辅助损失
结合常见的损失函数,起到辅助优化特征表达的作用。例如度量学习中的Center loss,通常结合
交叉熵损失伴随一个权重完成一些特定的任务。这种情况下一般建议辅助损失值不高于或者不低于
交叉熵损失值的两个数量级;第二类,多任务模型的多个损失函数,每个损失函数之间或独立或相
关,用于各自任务,这种情况取决于任务之间本身的相关性,目前笔者并没有一个普适的经验由于
提供参考;第三类,独立损失函数,这类损失通常会在特定的任务有显著性的效果。例如
RetinaNet中的focal loss,其中的参数γ,α,对最终的效果会产生较大的影响。这类损失通常论
文中会给出特定的建议值。
其次,批样本数量,动量优化器(Gradient Descent with Momentum)的动量参数β。批样本
决定了数量梯度下降的方向。过小的批数量,极端情况下,例如batch size为1,即每个样本都去
修正一次梯度方向,样本之间的差异越大越难以收敛。若网络中存在批归一化(batchnorm),
batch size过小则更难以收敛,甚至垮掉。这是因为数据样本越少,统计量越不具有代表性,噪声
也相应的增加。而过大的batch size,会使得梯度方向基本稳定,容易陷入局部最优解,降低精
度。一般参考范围会取在[1:1024]之间,当然这个不是绝对的,需要结合具体场景和样本情况;动
量衰减参数β是计算梯度的指数加权平均数,并利用该值来更新参数,设置为 0.9 是一个常见且效
果不错的选择;
最后,Adam优化器的超参数、权重衰减系数、丢弃法比率(dropout)和网络参数。在这里说明
下,这些参数重要性放在最后并不等价于这些参数不重要。而是表示这些参数在大部分实践中不建
议过多尝试,例如Adam优化器中的β1
,
β2
,
ϵ,常设为 0.9、0.999、10−8就会有不错的表现。权
重衰减系数通常会有个建议值,例如0.0005 ,使用建议值即可,不必过多尝试。dropout通常会
在全连接层之间使用防止过拟合,建议比率控制在[0.2,0.5]之间。使用dropout时需要特别注意两
点:一、在RNN中,如果直接放在memory cell中,循环会放大噪声,扰乱学习。一般会建议放在
输入和输出层;二、不建议dropout后直接跟上batchnorm,dropout很可能影响batchnorm计算
统计量,导致方差偏移,这种情况下会使得推理阶段出现模型完全垮掉的极端情况;网络参数通常
也属于超参数的范围内,通常情况下增加网络层数能增加模型的容限能力,但模型真正有效的容限
能力还和样本数量和质量、层之间的关系等有关,所以一般情况下会选择先固定网络层数,调优到
一定阶段或者有大量的硬件资源支持可以在网络深度上进行进一步调整。
14.2.5 部分超参数如何影响模型性能?
超
参
数
如何
影响
模型
容量
原因 注意事项
学
习
率
调至
最
优,
提升
有效
容量
过高或者过低的学习率,都会由
于优化失败而导致降低模型有效
容限
学习率最优点,在训练的不同时间点都可能
变化,所以需要一套有效的学习率衰减策略
损
失
函
数
部
分
超
参
数
调至
最
优,
提升
有效
容量
损失函数超参数大部分情况都会
可能影响优化,不合适的超参数
会使即便是对目标优化非常合适
的损失函数同样难以优化模型,
降低模型有效容限。
对于部分损失函数超参数其变化会对结果十
分敏感,而有些则并不会太影响。在调整
时,建议参考论文的推荐值,并在该推荐值
数量级上进行最大最小值调试该参数对结果
的影响。
批
样
本
数
量
过大
过
小,
容易
降低
有效
容量
大部分情况下,选择适合自身硬
件容量的批样本数量,并不会对
模型容限造成。
在一些特殊的目标函数的设计中,如何选择
样本是很可能影响到模型的有效容限的,例
如度量学习(metric learning)中的N-pair
loss。这类损失因为需要样本的多样性,可
能会依赖于批样本数量。
丢
弃
法
比率
降低
会提
升模
型的
容量
较少的丢弃参数意味着模型参数
量的提升,参数间适应性提升,
模型容量提升,但不一定能提升
模型有效容限
权
重
衰
减
系
数
调至
最
优,
提升
有效
容量
权重衰减可以有效的起到限制参
数变化的幅度,起到一定的正则
作用
优
化
器
动
量
调至
最
优,
可能
提升
有效
容量
动量参数通常用来加快训练,同
时更容易跳出极值点,避免陷入
局部最优解。
剩余17页未读,继续阅读
资源评论
fighting的码农(zg)-GPT
- 粉丝: 345
- 资源: 34
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功