• 多智能体-DM-ICML-ACAI.pdf

    强化学习与多智能体入门读物,这篇文章对多智能体强化学习(MARL)的背景,目的,代表性的算法进行了调研,在这样一个环境中,每个智能体拥有独立的 Q network,独自采集数据并进行训练,都有对环境的全局观察,动作空间包含以下四个维度:上移、下移、保持不动以及击球(或称为开始游戏)。 作者为了全面的观察将 DQN 应用到多智能体环境下的各方面表现,通过设计回报函数的方式设计了完全协作环境、完全竞争环境以及非完全协作/竞争环境。具体回报函数设计如下: 完全协作环境:一方失球,则两方均获得 -1 的回报 完全竞争环境:一方失球,该方获得 -1 的回报;对方获得 +1 的回报 非完全协作/竞争环境:一方失球,该方获得 -1 的回报;对方获得 的回报 最终的实验结果表明,在完全协作环境中,智能体学到的策略是尽可能长时间的不失球;而在完全竞争环境中,智能体学到的是如何更好的得分(即让对方失球)。

    0
    299
    17.08MB
    2020-08-08
    18
  • 机器学习数学知识图谱

    列出机器学习所需要的数学知识,对入门机器学习者指点方向,快速找到需要学习的数学知识。

    0
    315
    66KB
    2017-11-25
    50
  • 机器学习数学基础知识

    学习人工智能和机器学习的必备数学基础知识,能够为学习人工智能和机器学习打下基础

    1
    30
    25.49MB
    2017-10-08
    10
  • 创作能手

    授予每个自然周发布1篇到3篇原创IT博文的用户
  • 新秀勋章

    用户首次发布原创文章,审核通过后即可获得
  • 分享小兵

    成功上传3个资源即可获取
关注 私信
上传资源赚积分or赚钱