没有合适的资源?快使用搜索试试~ 我知道了~
强化学习在无人车领域的应用与展望.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 176 浏览量
2022-11-03
10:10:56
上传
评论
收藏 426KB DOCX 举报
温馨提示
试读
12页
强化学习在无人车领域的应用与展望.docx
资源推荐
资源详情
资源评论
0 引言
无人车是指不具有人类驾驶机构并可以自主执行运输、公交、物流、清扫、巡逻、救援、作战、侦
察等民用或军用任务的智能车辆。在民用领域,无人车已成为未来智能交通与智慧城市建设的核心要素。
在军用领域,无人车也已成为各军事大国竞相角逐的新一代陆军装备。无人车的核心技术主要有环境感
知、智能决策、路径规划、动力学控制、集群调度等相关技术。其中,智能决策是无人车的关键核心技术
之一,其性能是衡量无人车智能化水平的重要标准。智能决策系统根据任务调度信息、环境感知信息和无
人车状态信息等,做出合理、安全的驾驶决策,并输出车辆控制指令,以控制车辆完成指定任务。
无人车智能决策系统的算法主要包含规则驱动
[1-2]
和数据驱动两类算法
[3-4]
。由规则驱动的决策系统
基于既定规则构建,其根据人类驾驶经验及交通规则等建立相应的驾驶行为决策库,结合感知系统得到的
环境信息进行车辆状态的划分,依据预设的规则逻辑确认车辆行为
[5]
。这类基于规则的决策系统无法枚举
和覆盖所有交通场景,且在交通复杂、不确定性强的路况中,常因规则数目冗杂和行为决策库触发条件的
重叠而导致决策无法求解、决策系统的自适应性和鲁棒性不足等问题。基于强化学习的决策方法是数据驱
动的无人车决策系统的代表,该方法将无人车决策过程视为黑箱,利用机器学习建立由传感器到转向系
统、驱动系统、制动系统等执行机构的映射,实现基于高维度感知数据对执行机构的直接控制。这类决策
算法把整个自动驾驶过程与神经网络深度融合,通过由数据驱动的仿真训练使神经网络学习在不同交通场
景下的智能决策能力。
强化学习技术是人工智能领域的研究热点,适用于解决复杂的序贯决策问题,在机器人控制
[6-7]
、调
度优化
[8-9]
、多智能体协同
[10-11]
等领域中,取得了令人瞩目的成果。强化学习的基本思路是智能体依靠探
索试错以及环境交互的方式,结合反馈信号学习最优策略。近些年,随着强化学习的广泛研究和应用,特
别是综合了深度学习的特征提取能力和强化学习的策略优化能力的深度强化学习(deep reinforcement
learning,DRL)取得突破性进展之后,采用强化学习技术解决无人车智能决策问题成为无人车领域最受关
注的研究方向之一。
本文旨在综述强化学习在无人车领域的应用。首先介绍了强化学习的发展历史、基础原理和核心算
法;然后分析总结了强化学习在无人车智能决策问题中的研究现状,包括避障、变道与超车、车道保持及
道路交叉口通行四个典型的决策场景;最后探讨并展望了未来的研究工作和潜在的研究方向。
1 强化学习的基本理论 1.1 强化学习发展历史
强化学习是动物心理学、最优控制理论和时序差分学习等学科交叉的产物
[12]
。强化学习的“试错”思
想源于动物心理学家对试错行为的研究,最早可追溯到 Pavlov 的条件反射实验。1911 年美国心理学家
Thorndike 提出效应定律,第一次明确地阐述了试错行为的本质是学习。最优控制理论,是现代控制体系
的关键分支之一。在 20 世纪 50 年代初,美国数学家 Bellman 等提出求解最优控制的动态规划法
(dynamic programming,DP),该方法衍生出了强化学习试错迭代求解的机制。时序差分学习(temporal-
difference learning,TDL)是 DP 和蒙特卡洛方法结合的产物。1959 年 Samuel 首次提出并实现一个包含
时序差分思想的学习算法。1989 年 Watkins 在他的博士论文将最优控制和 TDL 整合,并提出 Q 学习算
法,这项工作正式标志着强化学习的诞生,该算法通过优化累积未来奖励信号学习最优策略。随后,
Watkins 和 Dayan 共同证明 Q 学习算法的收敛性。表 1 总结了强化学习发展历程中的若干重要事件。
表 1 强化学习发展历史重要事件 Tab.1 Important events of reinforcement learning
年份
提出者
事件
1956
Bellman
动态规划
1977
Werbos
自适应动态规划
1988
Sutton
时序差分算法
1989
Watkins
Q 学习算法
1994
Rummery
SARSA 算法
2013
Mnih
DQN 算法
2014
Silver
DPG 算法
2015
Schulman
TRPO 算法
2015
Lillicrap
DDPG 算法
2016
Mnih
A3C 算法
2016
Huang
AlphaGO 围棋机器人
2017
Schulman
PPO 算法
表选项
1.2 强化学习基本原理 1.2.1 马尔可夫决策过程
马尔可夫决策过程(Markov decision process,MDP)是求解序贯决策的重要模型,大部分强化学习
以 MDP 为基础。MDP 可以由四元组〈S,A,R,P〉描述。其中,S 为环境状态集合;A 为智能体可执
行的动作集合;R 为奖励函数,表示环境给予的奖励;P 为状态转移概率,表示智能体在状态 s,执行动
作 a 后,环境状态转移至 s′的概率:
(1)
在 MDP 中,环境的下一时刻状态 s
t+1
只与当前时刻的状态 s
t
和智能体执行的动作 a
t
有关,而与历
史的状态和动作条件独立。
1.2.2 强化学习模型
强化学习与其他机器学习相比最显著的特征是没有先验知识作为指导策略。智能体在与环境交互的
过程中进行探索与试错,利用环境给予的反馈信息,不断修正自身的策略
[13]
。
强化学习模型如图 1 所示,时刻 t 智能体基于策略 π 从动作集合 A 中选取并执行动作 a
t
,环境状态
根据状态转移概率 P 由 s
t
跳转至 s
t+1
,并给予智能体相应的奖励 r
t
。强化学习以未来累计奖励最大为优化
目标,常用状态—动作值函数衡量累计奖励:
(2)
图 1 强化学习模型 Fig.1 Reinforcement learning model
图选项
式中,γ 为折扣因子,Q
π
(s,a)为状态—动作值函数,表示智能体在环境状态 s
t
=s,执行动作 a
t
=a
时累计奖励的数学期望。
强化学习依据智能体和环境持续交互进程之中的相关数据,持续优化与修正策略 π。基于数次迭代
处理之后,可以学习获得最优策略 π
*
,使得 Q
π
(s,a)最大。
(3)
1.3 强化学习主要算法 1.3.1 强化学习算法分类
强化学习算法主要分为基于值函数(value-based)和基于策略(policy-based)的强化学习两类
[14]
。基
于值函数的强化学习算法以优化值函数为目标间接学习执行动作的策略,主要包括 Q 学习算法、SARSA
算法、深度 Q 网络等。这类强化学习算法主要应用于离散动作空间下的决策任务,当动作空间复杂或连
续时,会产生维数爆炸的问题。针对高维及连续动作空间下的决策问题,常利用基于策略的强化学习算法
求解。此类算法将策略参数化表达,运用策略梯度的方法优化策略,从而实现累积奖励最大化。经典的基
于策略的强化学习算法包括深度确定性策略梯度、异步优势演员—评论家、信任域策略优化、近端策略优
化等。
强化学习亦可按照其他方法进行分类:根据环境模型是否确定可分为基于模型(model-based)和无模
型(model-free)强化学习;根据执行以及评估策略一致与否,可将其划分成同、异策略的两个类别;依据
更新机制则可划分成回合与单步更新。
1.3.2 基于值函数的强化学习
Q 学习是一种无模型、异策略的强化学习算法,其思路是定义 Q 函数,即状态—动作值函数来间接
评估策略的优劣
[15]
。Q 学习以 MDP 为基础,在智能体执行每一步动作后,将在线观测到的奖励代入到动
态规划方程中。Q 函数的更新是通过动态规划中的值迭代方法获得的,其公式为
(4)
式中,Q(s
t
,a
t
)为时刻 t 的状态—动作值函数,r
t+1
为智能体获得的奖励,α 为学习率。
持续迭代之后,Q 函数收敛进而获取最优策略 π
*
。在实际应用中,常需处理高维或连续的状态和动
作空间下的决策问题,Q 学习算法迭代求解最优策略面临维数灾难的问题。学者将具有强大的特征提取能
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3576
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功