基于深度强化学习的机器人路径规划问题_基于深度强化学习的路径规划资源-CSDN文库

深度强化学习

需积分: 34 163 浏览量 2022-03-17 18:33:05 上传评论收藏 928KB PDF 举报

资源详情

资源评论

资源推荐

基于深度强化学习的机器人运动规划算法

摘要

运动规划（Motion Planning）是移动机器人的一项关键技术，它是一项将无法用

单一动作完成的运动任务分解成多个可执行的离散动作的技术。本文旨在设计一种基

于深度学习的机器人运动规划算法，使得机器人可以进行连续的多目标点运动规划。

算法首先通过 Deep Q-Learning 算法来选择下一个目标点，再通过 Motion Planning

Network（MPNet）来进行当前坐标和下一个目标点之间的路径规划。

本文对 MPNet 算法的性能进行了评估，证明了 MPNet 在二维空间和三维空间都

有很好的表现。同时，本文通过搭建简单的 Q-Learning 问题模型，证明了算法的可行

性。最后文章对多点运动规划算法的性能进行分析，并得出结论：算法能顺利完成规

划任务，并且有很高的成功率，但是奖励策略仍然有通过实验进行优化的可能。

关键字：深度强化学习，机器人，运动规划

   
III 
目录 
 
基于深度强化学习的机器人运动规划算法 ......................................................................... I 
ROBOT MOTION PLANNING ALGORITHM BASED ON .............................................. II 
DEEP REINFORCEMENT LEARNING .............................................................................. II 
目录 ...................................................................................................................................... III 
绪论 .................................................................................................................................... 1 
1  课题背景、目的与研究意义 ......................................................................................... 1 
1.1  课题研究背景与目的 .................................................................................................. 1 
1.2  研究意义 ...................................................................................................................... 2 
2  移动机器人介绍与研究现状 ......................................................................................... 2 
2.1  移动机器人的发展 ...................................................................................................... 2 
2.2  国内外研究现状 .......................................................................................................... 3 
2.2.1  路径规划算法介绍 ................................................................................................... 3 
2.2.2  深度强化学习的应用 ............................................................................................... 5 
3  本文结构及工作安排 ..................................................................................................... 7 
相关设置 ............................................................................................................................ 8 
1  所用工具 ......................................................................................................................... 8 
2  问题定义 ......................................................................................................................... 8 
算法设计 ............................................................................................................................ 9 
1 Q-Learning 算法 .............................................................................................................. 9 
2 Deep Q-Learning 算法 ..................................................................................................... 9 
3  算法结构 ....................................................................................................................... 10 
3.1.1 DQN 的基本设置 ..................................................................................................... 11 
3.1.2  线下学习阶段 ......................................................................................................... 12 
3.1.3  线上路径规划 ......................................................................................................... 13 
3.2  局部规划：Motion Planning Network ...................................................................... 13 
仿真结果与分析 .............................................................................................................. 15 
1 MPNet 的训练与结果 ................................................................................................... 15 
1.1  训练流程 .................................................................................................................... 15 
1.1  性能分析 .................................................................................................................... 16