多智能体深度强化学习的若干关键科学问题.docx_多智能体深度强化学习资源-CSDN文库

版权申诉

124 浏览量 2023-02-23 16:53:31 上传评论收藏 508KB DOCX 举报

资源推荐

资源详情

资源评论

多智能体系统由多个具有一定传感、计算、执行能力的个体组成, 个体通过网络与其

他智能体通信, 相互协作完成任务. 每个智能体具有一定的独立性和自主性, 能够自主学

习、推理和规划并选择适当的策略解决子问题. 通过多个具备简单智能的个体相互协作实

现复杂的智能, 多智能体系统在降低单个智能体复杂程度的同时, 有效提高了整个系统的鲁

棒性、可靠性和灵活性

[1-2]

. 近年来, 随着通信和网络技术的快速发展, 多智能体系统在交通

运输、工业生产等多个领域都有广泛和深入的应用. 面对越来越多的大规模复杂问题, 单智

能体集成的解决方案将面临各种资源和条件的限制. 如何开发具有群体智能的多智能体系

统, 高效优化的完成任务, 是人工智能和自动化领域面临的新的挑战

[3-4]

伴随着计算和存储能力的大幅提升, 深度学习在人工智能领域获得了巨大的成功. 在

此背景下, 产生了由深度学习和强化学习结合的深度强化学习(Deep reinforcement learning,

DRL)

[5]

. 深度强化学习将感知、学习、决策融合到同一框架, 实现了从原始输入到决策动作

“端到端”的感知与决策, 并在游戏领域取得了令人兴奋的成绩. Google DeepMind 团队开发

的 AlphaGo 系列围棋程序, 击败了人类顶级围棋选手

[6-8]

; 提出的深度 Q 网络(Deep Q-

network, DQN), 在多种 Atari 游戏中成功超越人类专业玩家. OpenAI 研发了能够在 Dota2 这

一比围棋更复杂的游戏中击败人类专业玩家的游戏机器人

[9]

. 此外, 深度强化学习在无人驾

驶

[10]

、机器人控制

[11]

、交通运输调度

[12]

、电力系统优化

[13]

、分布式传感网络

[14]

以及金融和

社会学等领域还有大量的应用研究

[15]

. 更为重要的是, 深度强化学习可能成为一种解决复杂

问题的有效方法, 极大地推动人工智能和自动化技术的发展

[16-17]

多智能体深度强化学习(Multi-agent deep reinforcement learning, MADRL)将深度强化学

习的思想和算法用于多智能体系统的学习和控制中, 是开发具有群体智能的多智能体系统

的重要方法. 然而, 深度强化学习方法扩展到多智能体系统, 面临诸多方面的挑战. 本文综

述了强化学习和深度强化学习方法的原理, 分析了多智能体深度强化学习算法结构、环境

非静态性、部分可观性等重要问题和研究进展, 对多智能深度强化学习方法的应用情况也

进行了简要概述. 最后, 讨论了多智能体深度强化学习未来的研究方向和研究思路.

1. 强化学习理论

受到生物学习规律的启发, 强化学习以试错机制与环境进行交互, 通过最大化累积奖

赏的方式来学习和优化, 最终达到最优策略. 在强化学习中, 定义决策者或学习者为“学习

机”, 将学习机之外的事物定义为“环境”, 系统与环境相融

[18]

. 学习机和环境之间的交互过程

可以由三个要素来描述, 分别是: 状态 ss、动作 aa、奖励 r.r.学习机根据初始状态 s0,s0,执

行动作 a0a0 并与环境进行交互, 得到奖励 r1r1 并获得更新的状态 s1.s1.在时间步 t,t,根据当

前状态 stst 和奖励 rt,rt,学习机提供当前动作 at.at.接着, 系统状态由 stst 转变为 st+1,st+1,与

环境交互反馈奖励 rt+1.rt+1.强化学习基本原理如图 1 所示.

策略的优劣通常采用值函数来进行表示. 用于评判状态 ss 下策略优劣的状态值函数表

示为:

Vπ(s)=E[Gt|st=s,π]Vπ(s)=E[Gt|st=s,π]

(2)

根据该式可以求得最优策略:

π∗=argmaxπVπ(s)π∗=arg⁡maxπVπ(s)

(3)

另一种形式的值函数用于评判状态 ss 下执行动作 aa 的优劣程度, 称为状态–动作值函

数, 也称为 QQ 函数:

Qπ(s,a)=E[Gt|st=s,at=a,π]Qπ(s,a)=E[Gt|st=s,at=a,π]

(4)

此时最优策略表示为:

π∗=argmaxaQπ∗(s,a)π∗=arg⁡maxaQπ∗(s,a)

(5)

下面给出蒙特卡洛法、时间差分法和策略梯度法三类强化学习算法, 分别从基于值函

数和基于策略的角度进行优化.

1.1 蒙特卡洛法

蒙特卡洛法通过重复生成训练周期并且记录在每个状态或每个状态–动作对的平均回

报值的方法来拟合值函数, 状态值函数的计算方法如下:

VMCπ(s)=limj→+∞E[Gj(st)|st=s,π]VπMC(s)=limj→+∞E[Gj(st)|st=s,π]

(6)

式中, Gj(st)Gj(st)表示在第 jj 个训练周期中, 在状态 stst 下观测到的回报值. 类似地,

还可以计算状态–动作值函数:

QMCπ(s,a)=limj→+∞E[Gj(st,at)|st=s,at=a,π]QπMC(s,a)=limj→+∞E[Gj(st,at)|st=s,at=a,π]

(7)

为了使蒙特卡洛方法可以更有效的探索, 在策略更新中常采用 ϵϵ-贪婪的方法进行探

索. 虽然蒙特卡洛法不需要任何系统状态转移概率的信息, 但为保证这种方法能够最终收

敛, 还需要满足两个条件: 1) 足够多的训练周期; 2) 每个状态和状态下的每个动作都应被达

到和执行过一定次数.

1.2 时间差分学习法

时间差分学习与蒙特卡洛法相同, 从环境交互的经验中学习, 且不需要模型. 但时间差

分学习不是等到一个训练周期结束之后再进行更新, 而是在每个时间步上利用时间差分

(Temporal difference)的方式进行更新, 因此可以达到更快的收敛效果. 状态值函数的更新方

式为:

V(st)←αV(st)+(1−α)(rt+1+γV(st+1))V(st)←αV(st)+(1−α)(rt+1+γV(st+1))

(8)

其中, αα 为更新速率, 满足 0<α<10<α<1. 时间差分学习采用上一次的估计值来更新当

前状态值函数, 这种方法也称作自举法(Bootstrapping). 在大多数情况中, 自举法的学习速

度要快于非自举方法. 时间差分学习方法旨在获得值函数, 当面临控制决策问题时, 状态–

动作值函数对于动作的选择更具有指导意义. 基于状态–动作值函数使用时间差分学习的算

剩余14页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3684
资源: 1万+

多智能体深度强化学习的若干关键科学问题.docx

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题.pdf

基于多智能体深度强化学习的分布式干扰协调.docx

人工智能论文：基于深度学习的目标检测技术综述.docx

一种基于深度强化学习的动态路由算法.docx

青藏高原气候变化若干前沿科学问题.docx

基于深度强化学习的码率自适应算法研究.docx

面向云网融合的新型城域网架构关键问题研究.docx

云网向算网演进中的若干关键技术问题.docx

对常用的机器学习和深度学习算法进行总结.docx

基于多智能体深度强化学习的分布式协同干扰功率分配算法.docx

高并发大数据在线学习系统中的关键技术研究.docx

百度校园招聘笔试试题-深度学习算法研发工程师.docx

面向新工科的空管智能学习平台设计与实现.docx

8.深度解密八：网站SEO优化关于站外优化的那些关键点详解.docx

卫星互联网若干关键技术研究.docx

演示版python与人工智能编程的关系.docx.docx

现代机器学习 基于深度学习的图像特征提取.docx

服装企业供应链信息化若干关键问题分析.docx

大数据服务若干关键技术研究.docx

百度 2014校园招聘笔试试题--深度学习算法研发工程师.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

最新资源

现代机器学习基于深度学习的图像特征提取.docx

李飞飞自传我看见的世界 The World I see