基于历史梯度平均方差缩减的协同参数更新方法.docx资源-CSDN文库

版权申诉

119 浏览量 2023-02-23 20:12:22 上传评论收藏 454KB DOCX 举报

资源推荐

资源详情

资源评论

� 1. 引言

机器学习被广泛应用于图像检索、语义识别和文本信息处理，在智慧医疗、智慧城

市和智慧教育等领域发挥着重要作用。许多机器学习算法的目标函数可以通过优化

问题来表示，并采用随机梯度下降算法(Stochastic Gradient Descent, SGD)进行求解

[1]

。但是，局部梯度与全局平均梯度之间存在方差，会使机器学习算法中损失函数

的收敛速度减慢。而且，SGD 在目标函数强凸且步长递减的情况下次线性收敛，

导致模型训练不稳定。

近年来，分布式机器学习取得了重要进展。分布式集群的节点分为参数服务

器和工作节点。工作节点从服务器中提取参数，梯度的计算由工作节点进行，更新

后的参数将推送到服务器，并在服务器上聚合以更新全局参数，最后与工作节点共

享

[2]

。其模型训练主要分为同步和异步两种方式。在同步方式中，所有工作节点都

需要同步消息，并在服务器更新前进行汇总；而异步方式中，服务器在一次更新迭

代轮次中接收到率先计算完成的工作节点的模型参数时，不再等待其他工作节点的

消息就将其更新为全局模型参数，然后分发给每个工作节点进行下一轮次迭代更

新。

基于传统参数服务器和工作节点关系的 SSP(Stale Synchronous Parallel)方法

[3]

在本地维护一个缓存参数池，每个工作节点可以直接从其中提取参数，并对参数服

务器之间的同步进行额外处理，其缺点在于性能差的节点可能得不到及时发现。因

此，使系统不被低性能节点影响的 FSSP 模型

[4]

和可动态决定节点失效阈值的 DSSP

模型

[5]

被提出。在这些模型中，节点间的通信要么采用自适应学习率来提高异步

SGD 的鲁棒性

[6,7]

，要么基于参数服务器系统采用类似 SSP 的异步通信协议进行跨

节点参数更新

[8]

。然而，由于学习率随着迭代而衰减，导致算法的收敛速度减慢，

容易出现过拟合。针对此，结合延迟近端梯度和随机方差缩减梯度的快速分布式

SGD

[9]

使用固定学习率来保证线性收敛，性能优于传统的 SGD。

由于集群中分布式机器学习的参数快速增长、同步的成本高，大大减慢分布

式学习的速度。充分因子广播(SFB)计算模型被提出用于大规模矩阵参数化模型的

分布式学习

[10]

。该方法通过在工作节点之间广播 SF 并在每个本地节点重构和更新

参数矩阵，可提高通信效率。此外，文献[11]提出一种有效的小批量训练机制，可

以加速集群中的 SGD；文献[12]提出可提升训练效率的误差补偿式随机梯度下降算

法，通过量化局部梯度来降低通信开销，并加快收敛速度。但这些算法主要在分布

式通信机制上采用随机梯度下降算法，很少有研究兼顾考虑历史梯度的方差。

事实上，近年关于方差缩减的研究并不少见，例如 SAG

[13]

, SAGA

[14]

, S2GD,

SVRG++和 Prox-SVRG

[8,9,15]

等。这些研究主要对模型的结构进行适当的时空折中，

从而减少随机梯度引起的方差，有助于获得线性收敛速度。但大多数算法是在中心

服务器上实现的，难以满足大规模分布式应用的要求。随着基于方差缩减的分布式

SGD 得到广泛关注，Wang 等人

[16]

提出有效融合异步并行机制和方差缩减方法的

Async-ProxSCVR 算法，Ferranti 等人

[17]

提出基于方差缩减的随机交替最小化算法

SVR-AMA，均可解决对于强凸和一般非凸情况下的快速收敛问题。然而，大量算

法主要使用闭环方式为节点中的多个线程(而非多个独立节点)并行更新参数。其缺

点是当训练数据或参数的数量很大、不能存储在单个节点中时，模型收敛效率会受

到严重影响。

鉴于此，本文的主要贡献在于采用方差缩减 SGD 完成分布式集群中的大规模

机器学习任务，主要集中解决两个关键问题：(1)将数据分块并分配给多个工作节

点后的算法“快速收敛”问题；(2)在异步通信方式下，执行全局参数分发时因快节点

等待慢节点导致的“更新滞后”问题。因此，本文提出一种基于历史梯度平均方差缩

减的分布式 SGD(DisSAGD)，利用历史迭代的梯度方差，修正每次迭代的梯度估

计，不需要完全的梯度计算或额外的存储，而是通过异步通信协议来共享跨节点参

数，并在分布式集群中使用方差缩减来训练机器学习模型。

2. 本文提出的 DisSAGD 方法

2.1 方差缩减

方差缩减通常在机器模型训练时使用多次迭代，每次迭代遍历整个训练集。

假设每轮迭代发生 tt 次更新(每个数据记录/特征向量 1 次更新)，其生成的迭代模型

参数为 ωtωt。本文在每轮迭代结束时通过使用 g¯¯¯=1m⋅∑mi=1∇fi(ωi)g¯=1m⋅

∑i=1m∇fi(ωi)确定梯度平均值，其中 mm 为样本数量。然后使用式(1)进行梯度校正

g=∇f(ω)��梯度近似值−∇f(ω¯¯¯)+g¯¯¯��误差校正 g=∇f(ω)⏟梯度近似值−∇f(ω¯)+g¯⏟误

差校正

(1)

其中，ω¯ω¯是训练样本的模型参数平均值，由式(2)求出

ω¯=1m∑i=1mωiω¯=1m∑i=1mωi

(2)

尽管此方法可以避免一些算法

[14]

存在的“无遍历迭代算法”额外存储的需求，

但是需要在每次迭代时对整个数据集进行梯度估计，造成昂贵的计算代价。为了解

决此问题并获得加速计算，本文在每次迭代上累积平均梯度向量，然后使用该向量

进行下次迭代的梯度求解，从而避免在整个数据集上迭代循环。这些累积的平均梯

度向量在机器学习算法运行时不会产生其他明显的开销。在每次估计梯度时用历史

梯度来做修正，在一段时间内使用 t×mt×m 个样本，经过 tt 轮迭代后重新选择

mm 个样本进行梯度计算。基于平均梯度向量方差缩减的参数更新规则如式(3)

ωt=ωt−1−λt−1⋅(1t−1∑i=1t−1∇fi(ωi)−∇ft−1(ω¯¯¯)+gt−1)ωt=ωt−1−λt−1⋅(1t−1∑i=1t−1∇fi(ωi)−∇ft−1(ω¯)+gt−1)

(3)

除了存储和更新平均梯度向量之外，算法不需要其他额外的存储，并且每次

迭代仅需要该轮次迭代的前 tt 次迭代的历史梯度值进行计算。与大多数方差缩减

方法一样，直接求解式(3)可以降低梯度估计的方差。1/(t−1)⋅∑t−1i=1∇fi(ωi)1/(t−1)

⋅∑i=1t−1∇fi(ωi)的期望为∇f(ω¯¯¯)−g∇f(ω¯)−g，因而可以将∇f(ω¯¯¯)−g∇f(ω¯)−g 视为

梯度估计 1/t⋅∑ti=1∇fi(ωi)1/t⋅∑i=1t∇fi(ωi)的偏差。基于平均梯度向量的方差缩减中

E(∇f(ω¯¯¯)−g¯¯¯)≠0E(∇f(ω¯)−g¯)≠0，那么在每一次的迭代中，算法都对基于当前参

数 ωω 做的梯度估计∇f(ω)∇f(ω)进行了基于历史梯度的 1 次修正。本文算法利用它

新的更新方式可以让估计的梯度方差有个不断减小的上界，使得机器学习模型在目

标函数光滑和强凸的情况下做到线性收敛。基于历史梯度平均方差缩减算法

avg_hg 的伪代码如表 1 所示。

表 1 基于历史梯度平均方差缩减算法

　输入：learning rate λλ.

　输出：ωω and gg for next epoch.

　(1) Initialize ωω using plain SGD

for 1 epoch;

　(2) while not converged do

　(3)　ω¯¯¯←0ω¯←0;

　(4)　g¯¯¯←0g¯←0;

　(5)　for tt= 0, 1, ···,

　(6)　　Randomly

sample it={1,2,⋅⋅⋅,m}it={1,2,···,m} without

replacement;

　(7)　　ω¯¯¯←1m∑i=1mωiω¯←1m∑i=1mωi;

　(8)　　

g¯¯¯←1m∑i=1m∇fi(ωi)g¯←1m∑i=1m∇fi(ωi);

　(9)　　Update gg and ωω using

equation(1) and equation(3),

　　　　respectively;

　(10)　end

　(11) end

下载: 导出 CSV

| 显示表格

剩余12页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4043
资源: 1万+

基于历史梯度平均方差缩减的协同参数更新方法.docx

关于国际经济学成绩的方差分析与教学改革探讨.docx

多元回归(多重共线-异方差-残差检验eviews-spss).docx

基于数据样本方差的正交频分复用水声通信多普勒频移估计方法.docx

融合InSAR和GNSS的三维形变监测：利用方差分量估计的改进SISTEM方法.docx

用计算器求平均数、标准差与方差.docx

正态分布的数学期望与方差-正态分布期望方差.docx

检验异方差性与调整异方差性.docx

方差最大值.docx

3.方差缩减方法，控制变量法.R

4.6用计算器计算平均数和方差.docx

方差分析.......

2017年上半年辽宁省基金从业资格：最小方差法等模拟试题.docx

乘性误差模型参数估计及精度评定的Sterling插值方法.docx

基于最大类间方差法的文本图像二值化处理.docx

基于变量投影法的自回归模型方差分量估计.docx

重复测量方差分析.docx

人教版八年级下册数学导学案：20.2极差方差（无答案）.docx

matlab求均值-方差.docx

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

AI大模型-基于深度学习的神经网络模型语言模型图像识别自然语言处理

学术海报模板+论文科研+研究生

北森能力测评题库.zip

最新资源

李飞飞自传我看见的世界 The World I see