6 优化⽅法
学习⽬标
知道常⻅优化⽅法的问题及解决⽅案
传统的梯度下降优化算法中,可能会碰到以下情况:
碰到平缓区域,梯度值较⼩,参数优化变慢 碰到 “鞍点” ,梯度为 0,参数⽆法优化 碰到局部最⼩值 对于这
些问题, 出现了⼀些对梯度下降算法的优化⽅法,例如:Momentum、AdaGrad、RMSprop、Adam 等.
1. 指数加权平均
我们最常⻅的算数平均指的是将所有数加起来除以数的个数,每个数的权重是相同的。加权平均指的是给每
个数赋予不同的权重求得平均数。移动平均数,指的是计算最近邻的 N 个数来获得平均数。
指数移动加权平均则是参考各数值,并且各数值的权重都不同,距离越远的数字对平均数计算的贡献就越⼩
(权重较⼩),距离越近则对平均数的计算贡献就越⼤(权重越⼤)。
⽐如:明天⽓温怎么样,和昨天⽓温有很⼤关系,⽽和⼀个⽉前的⽓温关系就⼩⼀些。
计算公式可以⽤下⾯的式⼦来表示:
1. St 表示指数加权平均值;
2. Yt 表示 t 时刻的值;
3. β 调节权重系数,该值越⼤平均数越平缓。
我们接下来通过⼀段代码来看下结果,我们随机产⽣进 30 天的⽓温数据:
import torch
import matplotlib.pyplot as plt
ELEMENT_NUMBER = 30
# 1. 实际平均温度
def test01():
! !# 固定随机数种⼦