【免费】67.最全的机器学习中的优化算法介绍-起风之后，只剩沙丘-CSDN博客1资源-CSDN文库

需积分: 0 182 浏览量 2022-08-03 21:56:30 上传评论收藏 644KB PDF 举报

在机器学习领域，优化算法是寻找模型参数最优值的关键技术，尤其当问题没有解析解或解析解计算复杂度高时。本文将详细讲解几种常见的优化算法，包括梯度下降法、Momentum算法、Nesterov Momentum（NAG）以及共轭梯度法。首先，梯度下降法是最基础的优化算法，其核心思想是沿着目标函数梯度的反方向前进，以最快的速度减小损失函数。在第n次迭代中，参数更新公式为：θn = θn−1 + Δθ，其中Δθ = −αL′(θn−1)，α是学习率。梯度下降法有全量、批量和随机三种形式，分别处理不同规模的数据集。接着，Momentum算法是为了改进SGD的收敛稳定性和跳出局部最优的能力。它引入了一个动量项，保留了部分前一次的更新方向，更新公式为：Δθn = ρΔθn−1 + gn−1，θn = θn−1 − αΔθn。ρ是动量系数，通常在[0, 1]之间，可以避免SGD的剧烈震荡。 Nesterov Momentum（NAG）进一步优化了Momentum，它提前预测了一步后的梯度方向，使得更新更加前瞻。NAG的更新公式为：Δθn = ρΔθn−1 + g(θn−1−αΔθn−1)，θn = θn−1 − αΔθn。这种方式利用了二阶导数信息，可以更快地收敛于最优解。共轭梯度法（Conjugate Gradient）针对线性方程组的优化，它在每次迭代中选取与之前梯度共轭的方向进行更新，减少了计算步骤，尤其适用于低维度问题。CG的优点在于不需要矩阵逆运算，适用于大型稀疏矩阵，但不适用于高维问题。这些优化算法各有优缺点，适应不同的场景。例如，梯度下降法简单易用，但可能陷入局部最优；Momentum和NAG提高了收敛速度，但增加了超参数的选择难度；共轭梯度法在某些情况下效率高，但不适合高维空间。在实际应用中，通常需要结合问题特性及实验效果来选择合适的优化算法。总结来说，机器学习中的优化算法是模型训练的关键，它们通过迭代更新参数来最小化损失函数，包括梯度下降法及其变体如Momentum和NAG，以及特定情况下的高效算法如共轭梯度法。理解这些算法的工作原理和特点，有助于我们更好地解决实际的机器学习问题。

资源详情

资源评论

资源推荐

    在机器学习中，有很多的问题并没有解析形式的解，或者有解析形式的解但
是计算量很大（譬如，超定问题的最小二乘解），对于此类问题，通常我们会选
择采用一种迭代的优化方式进行求解。
    这些常用的优化算法包括：梯度下降法（Gradient Descent），共轭梯度法
（Conjugate Gradient），Momentum算法及其变体，牛顿法和拟牛顿法（包括L-
BFGS），AdaGrad，Adadelta，RMSprop，Adam及其变体，Nadam。
梯
度
下
降
法
（
Gradient Descent
）
    想象你在一个山峰上，在不考虑其他因素的情况下，你要如何行走才能最快
的下到山脚？当然是选择最陡峭的地方，这也是梯度下降法的核心思想：它通过
每次在当前梯度方向（最陡峭的方向）向前“迈”一步，来逐渐逼近函数的最小
值。
    在第n次迭代中，参数θn=θn−1+Δθ
    我们将损失函数在θn−1处进行一阶泰勒展开：
L(θn)=L(θn−1+Δθ)≈L(θn−1)+L′(θn−1)Δθ
    为了使L(θn)<L(θn−1)，可取Δθ=−αL′(θn−1)，即得到我们的梯度下降的
迭代公式:
θn:=θn−1−αL′(θn−1)
    梯度下降法根据每次求解损失函数L带入的样本数，可以分为：
全
量
梯
度
下
降
（计算所有样本的损失）
，
批
量
梯
度
下
降
（每次计算一个batch样本的损失）
和
随
机
梯
度
下
降
（每次随机选取一个样本计算损失）。
PS：现在所说的SGD（随机梯度下降）多指Mini-batch-Gradient-Descent（批量
梯度下降），后文用gn来代替L′(θn)