没有合适的资源?快使用搜索试试~ 我知道了~
基于历史梯度平均方差缩减的协同参数更新方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 119 浏览量
2023-02-23
20:12:22
上传
评论
收藏 454KB DOCX 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/87487542/0001-d38557698d252ea0b30af9ab3296c800_thumbnail-wide.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
13页
基于历史梯度平均方差缩减的协同参数更新方法.docx
资源推荐
资源详情
资源评论
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![R](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![](https://csdnimg.cn/release/download_crawler_static/87487542/bg1.jpg)
� 1. 引言
机器学习被广泛应用于图像检索、语义识别和文本信息处理,在智慧医疗、智慧城
市和智慧教育等领域发挥着重要作用。许多机器学习算法的目标函数可以通过优化
问题来表示,并采用随机梯度下降算法(Stochastic Gradient Descent, SGD)进行求解
[1]
。但是,局部梯度与全局平均梯度之间存在方差,会使机器学习算法中损失函数
的收敛速度减慢。而且,SGD 在目标函数强凸且步长递减的情况下次线性收敛,
导致模型训练不稳定。
近年来,分布式机器学习取得了重要进展。分布式集群的节点分为参数服务
器和工作节点。工作节点从服务器中提取参数,梯度的计算由工作节点进行,更新
后的参数将推送到服务器,并在服务器上聚合以更新全局参数,最后与工作节点共
享
[2]
。其模型训练主要分为同步和异步两种方式。在同步方式中,所有工作节点都
需要同步消息,并在服务器更新前进行汇总;而异步方式中,服务器在一次更新迭
代轮次中接收到率先计算完成的工作节点的模型参数时,不再等待其他工作节点的
消息就将其更新为全局模型参数,然后分发给每个工作节点进行下一轮次迭代更
新。
基于传统参数服务器和工作节点关系的 SSP(Stale Synchronous Parallel)方法
[3]
在本地维护一个缓存参数池,每个工作节点可以直接从其中提取参数,并对参数服
务器之间的同步进行额外处理,其缺点在于性能差的节点可能得不到及时发现。因
此,使系统不被低性能节点影响的 FSSP 模型
[4]
和可动态决定节点失效阈值的 DSSP
模型
[5]
被提出。在这些模型中,节点间的通信要么采用自适应学习率来提高异步
SGD 的鲁棒性
[6,7]
,要么基于参数服务器系统采用类似 SSP 的异步通信协议进行跨
节点参数更新
[8]
。然而,由于学习率随着迭代而衰减,导致算法的收敛速度减慢,
容易出现过拟合。针对此,结合延迟近端梯度和随机方差缩减梯度的快速分布式
SGD
[9]
使用固定学习率来保证线性收敛,性能优于传统的 SGD。
由于集群中分布式机器学习的参数快速增长、同步的成本高,大大减慢分布
式学习的速度。充分因子广播(SFB)计算模型被提出用于大规模矩阵参数化模型的
分布式学习
[10]
。该方法通过在工作节点之间广播 SF 并在每个本地节点重构和更新
参数矩阵,可提高通信效率。此外,文献[11]提出一种有效的小批量训练机制,可
以加速集群中的 SGD;文献[12]提出可提升训练效率的误差补偿式随机梯度下降算
法,通过量化局部梯度来降低通信开销,并加快收敛速度。但这些算法主要在分布
式通信机制上采用随机梯度下降算法,很少有研究兼顾考虑历史梯度的方差。
![](https://csdnimg.cn/release/download_crawler_static/87487542/bg2.jpg)
事实上,近年关于方差缩减的研究并不少见,例如 SAG
[13]
, SAGA
[14]
, S2GD,
SVRG++和 Prox-SVRG
[8,9,15]
等。这些研究主要对模型的结构进行适当的时空折中,
从而减少随机梯度引起的方差,有助于获得线性收敛速度。但大多数算法是在中心
服务器上实现的,难以满足大规模分布式应用的要求。随着基于方差缩减的分布式
SGD 得到广泛关注,Wang 等人
[16]
提出有效融合异步并行机制和方差缩减方法的
Async-ProxSCVR 算法,Ferranti 等人
[17]
提出基于方差缩减的随机交替最小化算法
SVR-AMA,均可解决对于强凸和一般非凸情况下的快速收敛问题。然而,大量算
法主要使用闭环方式为节点中的多个线程(而非多个独立节点)并行更新参数。其缺
点是当训练数据或参数的数量很大、不能存储在单个节点中时,模型收敛效率会受
到严重影响。
鉴于此,本文的主要贡献在于采用方差缩减 SGD 完成分布式集群中的大规模
机器学习任务,主要集中解决两个关键问题:(1)将数据分块并分配给多个工作节
点后的算法“快速收敛”问题;(2)在异步通信方式下,执行全局参数分发时因快节点
等待慢节点导致的“更新滞后”问题。因此,本文提出一种基于历史梯度平均方差缩
减的分布式 SGD(DisSAGD),利用历史迭代的梯度方差,修正每次迭代的梯度估
计,不需要完全的梯度计算或额外的存储,而是通过异步通信协议来共享跨节点参
数,并在分布式集群中使用方差缩减来训练机器学习模型。
2. 本文提出的 DisSAGD 方法
2.1 方差缩减
方差缩减通常在机器模型训练时使用多次迭代,每次迭代遍历整个训练集。
假设每轮迭代发生 tt 次更新(每个数据记录/特征向量 1 次更新),其生成的迭代模型
参数为 ωtωt。本文在每轮迭代结束时通过使用 g¯¯¯=1m⋅∑mi=1∇fi(ωi)g¯=1m⋅
∑i=1m∇fi(ωi)确定梯度平均值,其中 mm 为样本数量。然后使用式(1)进行梯度校正
g=∇f(ω)��������梯度近似值−∇f(ω¯¯¯)+g¯¯¯������������误差校正 g=∇f(ω)⏟梯度近似值−∇f(ω¯)+g¯⏟误
差校正
(1)
其中,ω¯ω¯是训练样本的模型参数平均值,由式(2)求出
ω¯=1m∑i=1mωiω¯=1m∑i=1mωi
(2)
尽管此方法可以避免一些算法
[14]
存在的“无遍历迭代算法”额外存储的需求,
但是需要在每次迭代时对整个数据集进行梯度估计,造成昂贵的计算代价。为了解
决此问题并获得加速计算,本文在每次迭代上累积平均梯度向量,然后使用该向量
进行下次迭代的梯度求解,从而避免在整个数据集上迭代循环。这些累积的平均梯
度向量在机器学习算法运行时不会产生其他明显的开销。在每次估计梯度时用历史
![](https://csdnimg.cn/release/download_crawler_static/87487542/bg3.jpg)
梯度来做修正,在一段时间内使用 t×mt×m 个样本,经过 tt 轮迭代后重新选择
mm 个样本进行梯度计算。基于平均梯度向量方差缩减的参数更新规则如式(3)
ωt=ωt−1−λt−1⋅(1t−1∑i=1t−1∇fi(ωi)−∇ft−1(ω¯¯¯)+gt−1)ωt=ωt−1−λt−1⋅(1t−1∑i=1t−1∇fi(ωi)−∇ft−1(ω¯)+gt−1)
(3)
除了存储和更新平均梯度向量之外,算法不需要其他额外的存储,并且每次
迭代仅需要该轮次迭代的前 tt 次迭代的历史梯度值进行计算。与大多数方差缩减
方法一样,直接求解式(3)可以降低梯度估计的方差。1/(t−1)⋅∑t−1i=1∇fi(ωi)1/(t−1)
⋅∑i=1t−1∇fi(ωi)的期望为∇f(ω¯¯¯)−g∇f(ω¯)−g,因而可以将∇f(ω¯¯¯)−g∇f(ω¯)−g 视为
梯度估计 1/t⋅∑ti=1∇fi(ωi)1/t⋅∑i=1t∇fi(ωi)的偏差。基于平均梯度向量的方差缩减中
E(∇f(ω¯¯¯)−g¯¯¯)≠0E(∇f(ω¯)−g¯)≠0,那么在每一次的迭代中,算法都对基于当前参
数 ωω 做的梯度估计∇f(ω)∇f(ω)进行了基于历史梯度的 1 次修正。本文算法利用它
新的更新方式可以让估计的梯度方差有个不断减小的上界,使得机器学习模型在目
标函数光滑和强凸的情况下做到线性收敛。基于历史梯度平均方差缩减算法
avg_hg 的伪代码如表 1 所示。
表 1 基于历史梯度平均方差缩减算法
输入:learning rate λλ.
输出:ωω and gg for next epoch.
(1) Initialize ωω using plain SGD
for 1 epoch;
(2) while not converged do
(3) ω¯¯¯←0ω¯←0;
(4) g¯¯¯←0g¯←0;
(5) for tt= 0, 1, ···,
T
do
(6) Randomly
sample it={1,2,⋅⋅⋅,m}it={1,2,···,m} without
replacement;
(7) ω¯¯¯←1m∑i=1mωiω¯←1m∑i=1mωi;
(8)
g¯¯¯←1m∑i=1m∇fi(ωi)g¯←1m∑i=1m∇fi(ωi);
(9) Update gg and ωω using
equation(1) and equation(3),
respectively;
(10) end
(11) end
下载: 导出 CSV
| 显示表格
剩余12页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/3f07197aad004e4fa57ac5a008eb6aaf_weixin_57147647.jpg!1)
罗伯特之技术屋
- 粉丝: 4043
- 资源: 1万+
![benefits](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-1.c8e153b4.png)
下载权益
![privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-2.ec46750a.png)
C知道特权
![article](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-3.fc5e5fb6.png)
VIP文章
![course-privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-4.320a6894.png)
课程特权
![rights](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-icon.fe0226a8.png)
开通VIP
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- STN4526S8RG-VB一款N-Channel沟道SOP8的MOSFET晶体管参数介绍与应用说明
- CANalyzer 使用指南
- STN4480S8RG-VB一款N-Channel沟道SOP8的MOSFET晶体管参数介绍与应用说明
- 政务信息化项目 验收材料编制指南
- dirent.h用于读取和操作目录项的函数声明和数据类型定义
- 儿童节快乐html网页.zip
- 编译原理 - Compilers - Principles, Techniques, & Tools
- PDMS平面出图-BFDrawing智能出图系统说明文档
- 后缀表达式求值-多语言版(c++ java python等).doc
- Ansible 角色管理 docker-ce 安装并通过 daemon.json 进行配置
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)