多智能体-DM-ICML-ACAI.pdf

所需积分/C币:50 2020-08-08 19:42:07 17.08MB PDF
54
收藏 收藏
举报

强化学习与多智能体入门读物,这篇文章对多智能体强化学习(MARL)的背景,目的,代表性的算法进行了调研,在这样一个环境中,每个智能体拥有独立的 Q network,独自采集数据并进行训练,都有对环境的全局观察,动作空间包含以下四个维度:上移、下移、保持不动以及击球(或称为开始游戏)。 作者为了全面的观察将 DQN 应用到多智能体环境下的各方面表现,通过设计回报函数的方式设计了完全协作环境、完全竞争环境以及非完全协作/竞争环境。具体回报函数设计如下: 完全协作环境:一方失球,则两方均获得 -1 的回报 完全竞争环境:一方失球,该方获得 -1 的回报;对方获得 +1 的回报 非完全协作/竞争环境:一方失球,该方获得 -1 的回报;对方获得 的回报 最终的实验结果表明,在完全协作环境中,智能体学到的策略是尽可能长时间的不失球;而在完全竞争环境中,智能体学到的是如何更好的得分(即让对方失球)。

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 分享小兵

关注 私信
上传资源赚钱or赚积分
最新推荐
多智能体-DM-ICML-ACAI.pdf 50积分/C币 立即下载
1/0