没有合适的资源?快使用搜索试试~ 我知道了~
基于深度强化学习的机器人路径规划问题
需积分: 34 10 下载量 163 浏览量
2022-03-17
18:33:05
上传
评论
收藏 928KB PDF 举报
温馨提示
试读
31页
基于深度强化学习的机器人路径规划问题
资源详情
资源评论
资源推荐
I
基于深度强化学习的机器人运动规划算法
摘 要
运动规划(Motion Planning)是移动机器人的一项关键技术,它是一项将无法用
单一动作完成的运动任务分解成多个可执行的离散动作的技术。本文旨在设计一种基
于深度学习的机器人运动规划算法,使得机器人可以进行连续的多目标点运动规划。
算法首先通过 Deep Q-Learning 算法来选择下一个目标点,再通过 Motion Planning
Network(MPNet)来进行当前坐标和下一个目标点之间的路径规划。
本文对 MPNet 算法的性能进行了评估,证明了 MPNet 在二维空间和三维空间都
有很好的表现。同时,本文通过搭建简单的 Q-Learning 问题模型,证明了算法的可行
性。最后文章对多点运动规划算法的性能进行分析,并得出结论:算法能顺利完成规
划任务,并且有很高的成功率,但是奖励策略仍然有通过实验进行优化的可能。
关键字:深度强化学习,机器人,运动规划
II
ROBOT MOTION PLANNING ALGORITHM BASED ON
DEEP REINFORCEMENT LEARNING
ABSTRACT
Motion Planning is a key technology of mobile robots. It is a technology that
decomposes motion tasks that cannot be completed with a single action into multiple
executable discrete actions. This article aims to design a robot motion planning algorithm
based on deep learning, so that the robot can perform continuous multi-target motion
planning. The algorithm first selects the next target point through the Deep Q-Learning
algorithm, and then uses the Motion Planning Network (MPNet) to plan the path between
the current coordinates and the next target point.
This paper evaluates the performance of MPNet algorithm and proves that MPNet
performs well in two-dimensional space and three-dimensional space. At the same time,
this paper proves the feasibility of the algorithm by building a simple Q-Learning problem
model. Finally, the article analyzes the performance of the multi-point motion planning
algorithm and concludes that the algorithm can successfully complete the planning task and
has a high success rate, but the reward strategy is still possible to be optimized through
experiments.
KEY WORDS: deep reinforcement learning, robotics, motion planning
III
目录
基于深度强化学习的机器人运动规划算法 ......................................................................... I
ROBOT MOTION PLANNING ALGORITHM BASED ON .............................................. II
DEEP REINFORCEMENT LEARNING .............................................................................. II
目录 ...................................................................................................................................... III
1 绪论 .................................................................................................................................... 1
1.1 课题背景、目的与研究意义 ......................................................................................... 1
1.1.1 课题研究背景与目的 .................................................................................................. 1
1.1.2 研究意义 ...................................................................................................................... 2
1.2 移动机器人介绍与研究现状 ......................................................................................... 2
1.2.1 移动机器人的发展 ...................................................................................................... 2
1.2.2 国内外研究现状 .......................................................................................................... 3
1.2.2.1 路径规划算法介绍 ................................................................................................... 3
1.2.2.2 深度强化学习的应用 ............................................................................................... 5
1.3 本文结构及工作安排 ..................................................................................................... 7
2 相关设置 ............................................................................................................................ 8
2.1 所用工具 ......................................................................................................................... 8
2.2 问题定义 ......................................................................................................................... 8
3 算法设计 ............................................................................................................................ 9
3.1 Q-Learning 算法 .............................................................................................................. 9
3.2 Deep Q-Learning 算法 ..................................................................................................... 9
3.3 算法结构 ....................................................................................................................... 10
3.3.1.1 DQN 的基本设置 ..................................................................................................... 11
3.3.1.2 线下学习阶段 ......................................................................................................... 12
3.3.1.3 线上路径规划 ......................................................................................................... 13
3.3.2 局部规划:Motion Planning Network ...................................................................... 13
4 仿真结果与分析 .............................................................................................................. 15
4.1 MPNet 的训练与结果 ................................................................................................... 15
4.1.1 训练流程 .................................................................................................................... 15
4.1.1 性能分析 .................................................................................................................... 16
IV
4.2 Q-Learning 算法的实现 ................................................................................................ 17
4.2.1 问题定义 .................................................................................................................... 17
4.2.2 模型搭建 .................................................................................................................... 17
4.2.3 性能分析 .................................................................................................................... 18
4.3 基于 DQN 的多点路径规划算法 ................................................................................ 21
4.3.1 奖励函数 .................................................................................................................... 21
4.3.2 奖励函数的确定 ........................................................................................................ 23
5 结论 .................................................................................................................................. 25
参考文献 .............................................................................................................................. 26
致谢 ...................................................................................................................................... 27
1
1 绪论
1.1 课题背景、目的与研究意义
1.1.1 课题研究背景与目的
现代真正意义上的第一台工业机器人问世于上个世纪 60 年代
[1]
。近几年,随着人
工智能领域的突破,智能机器人技术也获得了突破。其中,智能移动机器人成为如今
的研究热点。如同自动驾驶技术,人工智能同样能够应用在移动机器人的运动规划上。
神经网络这个概念在上个世纪末就已经被提出,但受限于当时计算机的运算能力,
无法通过反向传播来更新参数,所以一直未能展现出应用价值。直到 2006 年,杰佛里.
辛顿(Geoffrey Hinton)提出了创建多层神经网络的可行方法,深度学习的概念正式诞
生。在之后的十多年里,深度学习得到了飞速的发展。它使人工智能产生了革命性的
突破,同时展现出了人工智能给人类生活带来改变的潜力。作为一种机器学习方法,
深度学习可以让计算机通过学习,理解更加抽象的概念,这是传统机器学习算法无法
比拟的。
强化学习也是机器学习的一种,它是一种与环境不断交互的学习过程,计算机通
过在环境中有效积累奖励并最终获得优异成绩的算法。强化学习从上个世纪提出,至
今已有数十年的历史。
机器人经过半个多世纪的发展,如今已经能够代替人类进行很多工作。在这之中,
强化学习是关键的一部分。通过使用强化学习方法,机器人从环境中获得反馈,来学
习抓取、行走、路径规划等功能。
多层神经网络概念的提出以及计算机算力的提升,共同促进了深度学习的高速发
展。如今,几乎各个行业都因神经网络的应用而产生了巨大变革。不过,在产业上的
大面积应用也代表着人们对深度学习的研究已经十分完备。所以,科研工作者们把研
究重心逐渐转移到了深度学习和强化学习的有机结合,这是机器学习的一大热门方向。
顾名思义,深度强化学习是一种结合深度学习和强化学习来实现从感知到行动的端到
端学习的新算法,即在感知和行动之间没有 hand-crafted 的工作
[2]
,这更类似于人类通
过试错来不断地学习。深度强化学习是一个框架,在这个框架中,计算机做出一系列
决定,这些决定作用于环境,并感知每个决定的结果。每一步感知的信息都会影响计
剩余30页未读,继续阅读
小羊太懒了
- 粉丝: 447
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0