超参数调整对于实现高效的机器学习模型至关重要不同的超参数设置可以导致模型性能的显著差异例如，在深度学习模型中，学习率的选择

69 浏览量 2024-03-25 09:31:24 上传评论收藏 1.06MB PDF 举报

资源推荐

资源详情

资源评论

第十四章 超参数调整 
14.1 写在前面
14.2 超参数概念
14.2.1 什么是超参数，参数和超参数的区别？
14.2.2 神经网络中包含哪些超参数？
14.2.3 为什么要进行超参数调优？
14.2.4 超参数的重要性顺序
14.2.5 部分超参数如何影响模型性能？
14.2.6 部分超参数合适的范围 
14.3 网络训练中的超参调整策略
14.3.1 如何调试模型？
14.3.2 为什么要做学习率调整?
14.3.3 学习率调整策略有哪些？
14.3.4 极端批样本数量下，如何训练网络？
14.4 合理使用预训练网络
14.4.1 什么是微调（ﬁne-tune）
14.4.2 微调有哪些不同方法？
14.4.3 微调先冻结底层，训练顶层的原因？
14.4.4 不同的数据集特性下如何微调？
14.4.4 目标检测中使用预训练模型的优劣？
14.4.5 目标检测中如何从零开始训练(train from scratch)？
14.5 如何改善 GAN 的性能
14.6 AutoML
14.6.1 什么是AutoML？
14.6.2 自动化超参数搜索方法有哪些？
14.6.3 什么是神经网络架构搜索（NAS）
14.6.4 NASNet的设计策略
14.6.5 网络设计中，为什么卷积核设计尺寸都是奇数
14.6.6 网络设计中，权重共享的形式有哪些，为什么要权重共享

第十四章 超参数调整  
Markdown Revision 1; 
Date: 2018/10/25 
Editor: 乔成磊-同济大学，王超锋 
Contact: qchl0318@163.com，syusuke0516@163.com 
Updater: sjsdfg，王超锋
14.1 写在前面  
  关于训练深度学习模型最难的事情之一是你要处理的参数的数量。无论是从网络本身的层宽（宽
度）、层数（深度）、连接方式，还是损失函数的超参数设计和调试，亦或者是学习率、批样本数量、
优化器参数等等。这些大量的参数都会有网络模型最终的有效容限直接或者间接的影响。面对如此众多
的参数，如果我们要一一对其优化调整，所需的无论是时间、资源都是不切实际。结果证实一些超参数
比其它的更为重要，因此认识各个超参数的作用和其可能会造成的影响是深度学习训练中必不可少的一
项重要技能。

超参数调整可以说是深度学习中理论和实际联系最重要的一个环节。目前，深度学习仍存在很多不可

解释的部分，如何设计优化出好的网络可以为深度学习理论的探索提供重要的支持。超参数调整一般分

为手动调整和自动优化超参数两种。读者可先浏览思维导图，本章节不会过多阐述所有超参数的详细原

理，如果需要了解这部分，您可以翻阅前面的基础章节或者查阅相关文献资料。当然，下面会讲到的一

些超参数优化的建议是根据笔者们的实践以及部分文献资料得到认知建议，并不是非常严格且一定有效

的，很多研究者可能会很不同意某些的观点或有着不同的直觉，这都是可保留讨论的，因为这很依赖于

数据本身情况。

14.2 超参数概念

14.2.1 什么是超参数，参数和超参数的区别？

区分两者最大的一点就是是否通过数据来进行调整，模型参数通常是有数据来驱动调整，超参数则不

需要数据来驱动，而是在训练前或者训练中人为的进行调整的参数。例如卷积核的具体核参数就是指模

型参数，这是有数据驱动的。而学习率则是人为来进行调整的超参数。这里需要注意的是，通常情况下

卷积核数量、卷积核尺寸这些也是超参数，注意与卷积核的核参数区分。

14.2.2 神经网络中包含哪些超参数？

通常可以将超参数分为三类：网络参数、优化参数、正则化参数。

网络参数：可指网络层与层之间的交互方式（相加、相乘或者串接等）、卷积核数量和卷积核尺寸、

网络层数（也称深度）和激活函数等。

优化参数：一般指学习率（learning rate）、批样本数量（batch size）、不同优化器的参数以及部

分损失函数的可调参数。

正则化：权重衰减系数，丢弃法比率（dropout）

14.2.3 为什么要进行超参数调优？

本质上，这是模型优化寻找最优解和正则项之间的关系。网络模型优化调整的目的是为了寻找到全局

最优解（或者相比更好的局部最优解），而正则项又希望模型尽量拟合到最优。两者通常情况下，存在

一定的对立，但两者的目标是一致的，即最小化期望风险。模型优化希望最小化经验风险，而容易陷入

过拟合，正则项用来约束模型复杂度。所以如何平衡两者之间的关系，得到最优或者较优的解就是超参

数调整优化的目的。

14.2.4 超参数的重要性顺序

首先，学习率，损失函数上的可调参数。在网络参数、优化参数、正则化参数中最重要的超参数

可能就是学习率了。学习率直接控制着训练中网络梯度更新的量级，直接影响着模型的有效容限能

力；损失函数上的可调参数，这些参数通常情况下需要结合实际的损失函数来调整，大部分情况下

这些参数也能很直接的影响到模型的的有效容限能力。这些损失一般可分成三类，第一类辅助损失

结合常见的损失函数，起到辅助优化特征表达的作用。例如度量学习中的Center loss，通常结合

交叉熵损失伴随一个权重完成一些特定的任务。这种情况下一般建议辅助损失值不高于或者不低于

交叉熵损失值的两个数量级；第二类，多任务模型的多个损失函数，每个损失函数之间或独立或相

关，用于各自任务，这种情况取决于任务之间本身的相关性，目前笔者并没有一个普适的经验由于

提供参考；第三类，独立损失函数，这类损失通常会在特定的任务有显著性的效果。例如

RetinaNet中的focal loss，其中的参数γ，α，对最终的效果会产生较大的影响。这类损失通常论

文中会给出特定的建议值。

其次，批样本数量，动量优化器（Gradient Descent with Momentum）的动量参数β。批样本

决定了数量梯度下降的方向。过小的批数量，极端情况下，例如batch size为1，即每个样本都去

修正一次梯度方向，样本之间的差异越大越难以收敛。若网络中存在批归一化（batchnorm），

batch size过小则更难以收敛，甚至垮掉。这是因为数据样本越少，统计量越不具有代表性，噪声

也相应的增加。而过大的batch size，会使得梯度方向基本稳定，容易陷入局部最优解，降低精

度。一般参考范围会取在[1:1024]之间，当然这个不是绝对的，需要结合具体场景和样本情况；动

量衰减参数β是计算梯度的指数加权平均数，并利用该值来更新参数，设置为 0.9 是一个常见且效

果不错的选择；

最后，Adam优化器的超参数、权重衰减系数、丢弃法比率（dropout）和网络参数。在这里说明

下，这些参数重要性放在最后并不等价于这些参数不重要。而是表示这些参数在大部分实践中不建

议过多尝试，例如Adam优化器中的β1

，

β2

，

ϵ，常设为 0.9、0.999、10−8就会有不错的表现。权

重衰减系数通常会有个建议值，例如0.0005 ，使用建议值即可，不必过多尝试。dropout通常会

在全连接层之间使用防止过拟合，建议比率控制在[0.2,0.5]之间。使用dropout时需要特别注意两

点：一、在RNN中，如果直接放在memory cell中,循环会放大噪声，扰乱学习。一般会建议放在

输入和输出层；二、不建议dropout后直接跟上batchnorm，dropout很可能影响batchnorm计算

统计量，导致方差偏移，这种情况下会使得推理阶段出现模型完全垮掉的极端情况；网络参数通常

也属于超参数的范围内，通常情况下增加网络层数能增加模型的容限能力，但模型真正有效的容限

能力还和样本数量和质量、层之间的关系等有关，所以一般情况下会选择先固定网络层数，调优到

一定阶段或者有大量的硬件资源支持可以在网络深度上进行进一步调整。

14.2.5 部分超参数如何影响模型性能？

剩余17页未读，继续阅读

评论收藏

内容反馈

fighting的码农(zg)-GPT

粉丝: 345
资源: 34

超参数调整对于实现高效的机器学习模型至关重要 不同的超参数设置可以导致模型性能的显著差异 例如，在深度学习模型中，学习率的选择

Python-用NumPy实现所有机器学习模型

机器学习优化方法及超参数设置综述v1.pdf

Python-optomatic是一个Python库用以帮助超参数搜索一般的机器学习模型

机器学习模型工具箱，提供自动化模型报告输出、超参数调优、代价敏感学习、不平衡数据集处理等功能，快速上手，解放生产力.zip

基于python实现的机器学习预测系统汇总+GUI界面(贝叶斯网络、马尔科夫模型、线性回归、岭回归多项式回归、决策树等).zip

使用hyperopt实现对机器学习模型的调参.zip

基于机器学习算法的糖尿病预测模型研究

机器学习模型部署的两种方式

基于多参数MRI及影像组学建立机器学习模型诊断临床显著性前列腺癌.pdf

毕设项目基于python实现的机器学习模型和LSTM-CRF中文分词源码+数据+代码注释.zip

自己实现的机器学习模型算法.zip

Python-各种机器学习模型和算法的Python实现

机器学习回归模型的学习.zip

基于机器学习回归模型对广州二手房价格进行分析及模型评估项目源码

机器学习数学基础：线性代数+微积分+概率统计+优化算法 矩阵运算助力特征提取，导数分析优化模型性能，概率评估数据分布，优化算法寻

Python基于5种机器学习模型实现MNIST手写数字识别源码(机器学习课程作业).zip

实现了多因子回测，利用增量机器学习模型预测收益.zip

Hyperparameter-Optimization-of-Machine-Learning-Algorithms:机器学习和深度学习模型的超参数优化调整方法的实现（简单明了）

深度学习基础：神经网络+激活函数+反向传播+优化算法 理解网络结构，运用激活增强非线性，掌握反向调整参数，优化算法提升性能，赋能

《点燃我温暖你》中李峋的同款爱心代码

122版本Chrome最新驱动-122.0.6261.58

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

Python入门基础教程全套.ppt

Stable Diffusion WebUI linux部署问题

第十五届蓝桥杯大赛软件赛省赛-PythonA组题目

Tesseract最新中文语言包chi-sim.traineddata

Python学习笔记(干货) 中文PDF完整版.pdf

手眼标定源数据（棋盘格+excel）

PyCharm安装教程一篇搞定包括下载PyCharm、安装PyCharm、PyCharm简单使用教程

最新资源

超参数调整对于实现高效的机器学习模型至关重要不同的超参数设置可以导致模型性能的显著差异例如，在深度学习模型中，学习率的选择

机器学习数学基础：线性代数+微积分+概率统计+优化算法矩阵运算助力特征提取，导数分析优化模型性能，概率评估数据分布，优化算法寻

深度学习基础：神经网络+激活函数+反向传播+优化算法理解网络结构，运用激活增强非线性，掌握反向调整参数，优化算法提升性能，赋能