没有合适的资源?快使用搜索试试~ 我知道了~
多智能体深度强化学习的若干关键科学问题.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 124 浏览量
2023-02-23
16:53:31
上传
评论
收藏 508KB DOCX 举报
温馨提示
试读
15页
多智能体深度强化学习的若干关键科学问题.docx
资源推荐
资源详情
资源评论
多智能体系统由多个具有一定传感、计算、执行能力的个体组成, 个体通过网络与其
他智能体通信, 相互协作完成任务. 每个智能体具有一定的独立性和自主性, 能够自主学
习、推理和规划并选择适当的策略解决子问题. 通过多个具备简单智能的个体相互协作实
现复杂的智能, 多智能体系统在降低单个智能体复杂程度的同时, 有效提高了整个系统的鲁
棒性、可靠性和灵活性
[1-2]
. 近年来, 随着通信和网络技术的快速发展, 多智能体系统在交通
运输、工业生产等多个领域都有广泛和深入的应用. 面对越来越多的大规模复杂问题, 单智
能体集成的解决方案将面临各种资源和条件的限制. 如何开发具有群体智能的多智能体系
统, 高效优化的完成任务, 是人工智能和自动化领域面临的新的挑战
[3-4]
.
伴随着计算和存储能力的大幅提升, 深度学习在人工智能领域获得了巨大的成功. 在
此背景下, 产生了由深度学习和强化学习结合的深度强化学习(Deep reinforcement learning,
DRL)
[5]
. 深度强化学习将感知、学习、决策融合到同一框架, 实现了从原始输入到决策动作
“端到端”的感知与决策, 并在游戏领域取得了令人兴奋的成绩. Google DeepMind 团队开发
的 AlphaGo 系列围棋程序, 击败了人类顶级围棋选手
[6-8]
; 提出的深度 Q 网络(Deep Q-
network, DQN), 在多种 Atari 游戏中成功超越人类专业玩家. OpenAI 研发了能够在 Dota2 这
一比围棋更复杂的游戏中击败人类专业玩家的游戏机器人
[9]
. 此外, 深度强化学习在无人驾
驶
[10]
、机器人控制
[11]
、交通运输调度
[12]
、电力系统优化
[13]
、分布式传感网络
[14]
以及金融和
社会学等领域还有大量的应用研究
[15]
. 更为重要的是, 深度强化学习可能成为一种解决复杂
问题的有效方法, 极大地推动人工智能和自动化技术的发展
[16-17]
.
多智能体深度强化学习(Multi-agent deep reinforcement learning, MADRL)将深度强化学
习的思想和算法用于多智能体系统的学习和控制中, 是开发具有群体智能的多智能体系统
的重要方法. 然而, 深度强化学习方法扩展到多智能体系统, 面临诸多方面的挑战. 本文综
述了强化学习和深度强化学习方法的原理, 分析了多智能体深度强化学习算法结构、环境
非静态性、部分可观性等重要问题和研究进展, 对多智能深度强化学习方法的应用情况也
进行了简要概述. 最后, 讨论了多智能体深度强化学习未来的研究方向和研究思路.
1. 强化学习理论
受到生物学习规律的启发, 强化学习以试错机制与环境进行交互, 通过最大化累积奖
赏的方式来学习和优化, 最终达到最优策略. 在强化学习中, 定义决策者或学习者为“学习
机”, 将学习机之外的事物定义为“环境”, 系统与环境相融
[18]
. 学习机和环境之间的交互过程
可以由三个要素来描述, 分别是: 状态 ss、动作 aa、奖励 r.r.学习机根据初始状态 s0,s0,执
行动作 a0a0 并与环境进行交互, 得到奖励 r1r1 并获得更新的状态 s1.s1.在时间步 t,t,根据当
前状态 stst 和奖励 rt,rt,学习机提供当前动作 at.at.接着, 系统状态由 stst 转变为 st+1,st+1,与
环境交互反馈奖励 rt+1.rt+1.强化学习基本原理如图 1 所示.
图 1 强化学习的基本原理
Fig. 1 Basic principles of reinforcement learning
下载: 全尺寸图片 幻灯片
一般来说, 强化学习强调和环境的交互, 表示为一系列状态、动作和奖励的序
列: s0,a0,r1,s1,a1,s0,a0,r1,s1,a1,r2,⋯,sn−1,an−1,rn.r2,⋯,sn−1,an−1,rn.尽管 nn 可以趋向于无穷,
但实际上通常定义一个末端状态 sn=sTsn=sT 来对 nn 进行限制. 这一串从起始状态开始到
末端状态结束的状态、动作和奖励序列称为一个学习周期(Episode)或训练周期. 策略通常
表示为 ππ, 是从状态 ss 到动作 aa 的一个映射. 如果对所有的状态, 在状态为 ss 时采取动
作 aa 的概率 P(a|s)=1P(a|s)=1, 则这个策略为确定性策略. 反之, 如果对于状态 ss, 在该状
态下采取动作 aa 的概率 P(a|s)<1P(a|s)<1, 则该策略为随机策略. 在两种情况的任一情况
下, 都可以定义策略 ππ 为一组状态备选动作的概率分布. 在当前时间步, 学习机与环境交
互和试错学习, 迭代优化当前策略 πt,πt,使新一步的策略 πt+1πt+1 优于当前步的策略 πt.πt.
这个过程被称为“策略更新”, 在强化学习过程中反复执行, 直到学习机不能寻找到一个更好
的策略为止.
在学习机与环境的交互中, 学习机在每个时间步 tt 都会得到一个反馈奖励 rtrt, 直到末
端状态 sTsT. 然而每步奖励 rtrt 并不能代表长期的奖励收益. 为了表达学习机长期的收益,
引入时间步 tt 的回报 GtGt:
Gt=rt+γrt+1+γ2rt+2+⋯+γT−trT=∑i=0T−tγirt+iGt=rt+γrt+1+γ2rt+2+⋯+γT−trT=∑i=0T−tγirt+i
(1)
其中, γγ 为折扣因子且满足 0<γ≤10<γ≤1. 当 γγ 接近 1 时, 学习机表现为更加重视长
期回报. 反之, 当 γγ 接近 0 时, 学习机更加重视短期回报. 在实际中, γγ 更倾向于被设置接
近 1, 使其更关注长期回报.
策略的优劣通常采用值函数来进行表示. 用于评判状态 ss 下策略优劣的状态值函数表
示为:
Vπ(s)=E[Gt|st=s,π]Vπ(s)=E[Gt|st=s,π]
(2)
根据该式可以求得最优策略:
π∗=argmaxπVπ(s)π∗=argmaxπVπ(s)
(3)
另一种形式的值函数用于评判状态 ss 下执行动作 aa 的优劣程度, 称为状态–动作值函
数, 也称为 QQ 函数:
Qπ(s,a)=E[Gt|st=s,at=a,π]Qπ(s,a)=E[Gt|st=s,at=a,π]
(4)
此时最优策略表示为:
π∗=argmaxaQπ∗(s,a)π∗=argmaxaQπ∗(s,a)
(5)
下面给出蒙特卡洛法、时间差分法和策略梯度法三类强化学习算法, 分别从基于值函
数和基于策略的角度进行优化.
1.1 蒙特卡洛法
蒙特卡洛法通过重复生成训练周期并且记录在每个状态或每个状态–动作对的平均回
报值的方法来拟合值函数, 状态值函数的计算方法如下:
VMCπ(s)=limj→+∞E[Gj(st)|st=s,π]VπMC(s)=limj→+∞E[Gj(st)|st=s,π]
(6)
式中, Gj(st)Gj(st)表示在第 jj 个训练周期中, 在状态 stst 下观测到的回报值. 类似地,
还可以计算状态–动作值函数:
QMCπ(s,a)=limj→+∞E[Gj(st,at)|st=s,at=a,π]QπMC(s,a)=limj→+∞E[Gj(st,at)|st=s,at=a,π]
(7)
为了使蒙特卡洛方法可以更有效的探索, 在策略更新中常采用 ϵϵ-贪婪的方法进行探
索. 虽然蒙特卡洛法不需要任何系统状态转移概率的信息, 但为保证这种方法能够最终收
敛, 还需要满足两个条件: 1) 足够多的训练周期; 2) 每个状态和状态下的每个动作都应被达
到和执行过一定次数.
1.2 时间差分学习法
时间差分学习与蒙特卡洛法相同, 从环境交互的经验中学习, 且不需要模型. 但时间差
分学习不是等到一个训练周期结束之后再进行更新, 而是在每个时间步上利用时间差分
(Temporal difference)的方式进行更新, 因此可以达到更快的收敛效果. 状态值函数的更新方
式为:
V(st)←αV(st)+(1−α)(rt+1+γV(st+1))V(st)←αV(st)+(1−α)(rt+1+γV(st+1))
(8)
其中, αα 为更新速率, 满足 0<α<10<α<1. 时间差分学习采用上一次的估计值来更新当
前状态值函数, 这种方法也称作自举法(Bootstrapping). 在大多数情况中, 自举法的学习速
度要快于非自举方法. 时间差分学习方法旨在获得值函数, 当面临控制决策问题时, 状态–
动作值函数对于动作的选择更具有指导意义. 基于状态–动作值函数使用时间差分学习的算
剩余14页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3684
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功