论文研究-一种基于MADDPG的AGV动态避障方法 .pdf

所需积分/C币:46 2019-08-23 19:21:55 330KB .PDF
收藏 收藏 1
举报

一种基于MADDPG的AGV动态避障方法,周能,刘晓平,深度增强学习将深度学习的感知能力和增强学习的决策能力相结合,在智能控制,机器人控制及预测分析等领域有广泛应用空间。本文将
国科技论文在线 http://www.paper.edu.cn 练 online网络的数据集 g从D中随机采样·批(x,a,yr3,x′)观测数据,作为当前策略网络和评估网络的·个 mini- batch训练数据。 h.计算并更新当前估网络的梯度。定义损失函数L为均方差(MES): L(O)=x(y-g(x,…a),其中y=r+"(x",,…,)(3) i计算并更新当前策略网终的梯度。定义策略泮估函数J(),计算梯度公式如卜: VeJa-∑v()O(x,…,a)(4) j史新当前网络参数给目标网络,采用软吏新方式。 0g+m2+(1-)0 6"←p+(1-r) 0 其中,x一般取值0.001。 动态避障建模 场景建模 设AG运行在二维平面上的矩形地图区域内,场景中内有多个AGV和障碍物。将场 景中的AGVⅴ和障碍物作为质点进行建模,对所有质点进行膨化处理,预留安仝边界确保 AGⅴ的安全可靠运行,质点的位置和速度向量数据可获取。AGⅤ及障碍物的模型及完整实 验场景设计如图2和图3所示。按照深度增强学丬框架的要求,需定义AGV在木文场景下 的状态空间,动作空间和奖励函数。AGV的状态空间有正常运动,停止运动,与障碍物碰 撞,与A〔Ⅴ碰撞,抵达目的地等,当AGⅤ到达目的地或发生碰撞吋,单个训练回合终止。 本文中定义AGV的动作空间为连续动作空间。 安全预留尺寸 AGV质心 AGV边界 璋碍物膨胀边界 障碍物原有边界 90 图2AGⅤ及障碍物的模型 ig 2 models of AGV and obstacles 山国利技论文在线 http://www.paper.edu.cn 障碍 障碍 障碍 障碍 目的地 障碍障砖物 图3实验场景设计 95 Fig.experiment design 奖励函数 深度增强学习中,奖励函数的设计直接影响着学习效果的好坏,是影响系统性能的关键 部分。奖励函数包含了对于学习仟务的量化描述,指导训练的智能体向期望奖励的方向学习。 在AGⅴ避障门题中,希望ΔGⅴ能够尽快到达目标位置,同时要求AG在移动过程中能够 避免与障碍物或其他AGV相撞。在本文中,奖励函数分为三部分,如下所小: 机器人自由行走状态 R( 机器人到达目的地 (3)其中,p为距离参数,d为障碍物的相 10Gaussian(d, u,o), d<d 对距离,dm为安全阈值,u为高斯( Gaussian)函数正态分布期望值a为高斯函数正态分 布方差。 第一部分对AGⅤ离目标位置的距离进行惩罚,即相当于对AGⅴ靠近目标位置进行正 向奖励,惩罚值的大小由AGV和目标位置的距离进行量化 第二部分对AGV到达目标位置进行奖劢,当AGV成功抵达目的地时,进行正向奖励 即木文场景中AGV质点到达指定的目标点范围内 第三部分对AGⅤ与障碍物相撞进行惩罚。每步的状态中都记录了AGⅴ位置与障碍 物的相对距离。AGV与障碍物距离越近,高斯函数计算出的惩罚力度越大,当AGV与障 I10 碍物距离小于安全阈值时,惩罚力度最大。 网络结构 本文定义N个智能体的马尔可夫模型来描述所有AGV。设AGV当前的状态集合 S:s1,s,动作集合A:a,,a、和观测值O:o…。状态集合S包括AGV的位置、速度信 息,动作集合在每ˆ回合启动时随机初始化,每个AGⅤ选择动作时使用策略n(s)→a,根 115 据状态转移函数P广生下一个状态S:P(S,A)→S。每个AGV都根据当前自身的状态和动作 获得奖励R:z(S,A)→R,并收到与各自状态相关的观测值O。每个AGV旨在最人化自己的 4 国科技论文在线 http://www.paper.edu.cn 总预期奖励R-Σγ,其中折扣因子γ通常取∝≤γ<1。通过调节折扣因子可以控制学习系 统对AGⅤ行动的短期和长期结果考虑的程度。在极端情况,当γ=0时系统是短视的,它只 考虑行动的当前结果。当γ接近1吋,末来的奖励在采取最优行动时变得更为重要。 120 Q(x,a…,aN)是AGV动作集合的值函数,状态信息x=(o灬,O、),包含所有AGV的观测信 息,这些信息包括单个AGV自身的状态信息(位置,速度),其他AGV相对该AGV的状 态信息。每个是Q单独设计且分开学习的,AGⅣ可以有不同的奖励方式,即允许每个AGV 能够学习到更加灵活的个体策略。利用集中评估,分散执行的训练框架,每个AGV各自在 当前的动态环境中发生交互,产生行动和观测,每个AGV的评估模块掌握全部的信息并进 125 行训练,从而指导智能体去决策那些动作,强化奖励更高的策略和行动 实验仿真 本文碁于增强学习仿真平台Gm进行实验,深度神经网络模块通过 Tensorflow库搭建。 模型训练参数如下:学习率设置为0.01,折扣因子取0.95,训练每回合的最大步数为100。 神经网终部分,设2层全连接神经元层,每层128个神经元,批处理的大小为1024。将地 130 图模型得坐标作归一化处理。当AGV到达目的地,撞到障碍物,或是达到最长步数时,本 轮回合结束,根据设定的奖励函数返回奖励或惩罚。训练流程如图4所示: 创建环境(Gym平台) 配置AGV场景和训练参效 初始化AGⅤ场景和训练参数 开始训练 AGV采取行动 与坏境交互反缵 获得观测信息存入经验池 是否达到设定回合数 MADDPG框架训练AGV AGⅤ更新避障策略 是否达到设定要求 AGV避降策略 图4训练流程 135 Fig 4The training process 木文分别对障碍物位置和目的地位置是否固定,AGV是单个和多个进行了比较实验。 每次实验训练100回合,每50回合计算次AGV的平均兴励,图5为多个AGV且障碍 物、目的地位置均不固定的场景中得到的学习奖励曲线,可以看出,当训练到达1750轮付, 山国利技论文在线 http://www.paper.edu.cn 学习曲线趋于平稳,表示已学到完成当前任务的策咯,这些策咯保存在神经网络中。表1 140 给出了不同环境下的比较实验结果。 4C0 230 430 1030 2.0c0 4.00 6.000 8.000 10.000 训练回合数 图5训练学习曲线 Fig 5the curve of training learning 145 表1不同环境下AGV避障训练及测试效果 Tab. I training and test results ofAG Vin different environments 测试环境 训练至奖励稳定回测试时平均奖 合数 励分数 AGV 目的地位置障碍物位置 单个 固定 固定 500 361.2 单个 叵定 不固定 353.4 单个 不固定 团定 345.9 单个 不固定 不固定 850 332.5 多个 声定 固定 l200 338.9 多个 固定 不固定 1550 334.2 多个 不固定 固 1450 327.9 不固定 不固定 1750 319.5 结论 本文通过深度增强学习框架建立AGⅤ在动态环境中的运动模型,AGV在复杂的动态环 境状态的学习到有效避障策咯,实现ΔG的状态与动态环境的映射关系,AGV能够根据 l50 当前环境做岀冇效的避障决策。实验表明,深度增强学习方法的应用,有效地实现了AGV 国科技论文在线 http://www.paper.edu.cn 在动态环境下的局部避障能力,该研究具有·定的理论意义和应用价值。 参考文献 [1 Cheng Y h, Zhang C L. Mobile robot Obstacle Avoidance Based on Multi-Sensor Information Fusion 155 TechnologyLJ] Applied mechanics &e materials, 2014, 490-491(490-491): 1168-1171 [2]张建英,赵志萍,刘暾.基于人工势场法的机器人路径规划[.哈尔滨工业大学学报,2006 38(8):1306-1309 [3] Fox D, Burgard W, Thrun S. The Dy namic Window Approach to Collision A voidance[J]. IEEE Robotics Automation Magazine, 1997,4(1): 23-33 160 [4]黄荣.移动机器人避障及路径规划探讨.信息与电脑(理论版),2018,Nσ.407(13:137-138+141 [5]朱大奇,颜明重.移动机器人路径规划技术综述[J.控制与决策,2010,25(7):961-967 [6]简毅.高斌,张月.一种室内扫地杋器人仝遍历路径规划方法研究[.传感器与微系统,2018(1):3234 7]Rusk N Deep learning[]. Nature Methods, 2016, 13(1): 35-35. 「8庄裎振,罗平,何清,等.迁移学习研究进展[J.软件学报,2015,26(1):26-39. 165 「9]刘全,翟建伟,章宗长,etal.深度强化学习综述[J.计算机学报,2018(1):1-27. [10] Watkins C JCH, Dayan P. Technical Note: Q-Learning[J]. Machine Learning, 1992, 8(3-4): 279-292 11] Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533 [12]赵冬斌,邵坤,朱圆恒,等.深度强化学习综述:兼论计算机围棋的发展[J.控制理论与应用,2016 33(6):701-717 170 13]韩向敏,鲍泓,梁军,等,一种基于深庋强化学丬的自适应巡航控制算法[门_计算机工程,2018,ⅴ44 N0.489(07):38-41+47 14]黄静,殷保群,李俊.基于观测的 POMDP优化算法及其仿真].信息与控制,2008,37(3):346-351. 7

...展开详情
试读 7P 论文研究-一种基于MADDPG的AGV动态避障方法 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-一种基于MADDPG的AGV动态避障方法 .pdf 46积分/C币 立即下载
    1/7
    论文研究-一种基于MADDPG的AGV动态避障方法 .pdf第1页
    论文研究-一种基于MADDPG的AGV动态避障方法 .pdf第2页
    论文研究-一种基于MADDPG的AGV动态避障方法 .pdf第3页

    试读已结束,剩余4页未读...

    46积分/C币 立即下载 >