强化学习在无人车领域的应用与展望.docx资源-CSDN文库

版权申诉

文档资料

176 浏览量 2022-11-03 10:10:56 上传评论收藏 426KB DOCX 举报

资源推荐

资源详情

资源评论

0 引言

无人车是指不具有人类驾驶机构并可以自主执行运输、公交、物流、清扫、巡逻、救援、作战、侦

察等民用或军用任务的智能车辆。在民用领域，无人车已成为未来智能交通与智慧城市建设的核心要素。

在军用领域，无人车也已成为各军事大国竞相角逐的新一代陆军装备。无人车的核心技术主要有环境感

知、智能决策、路径规划、动力学控制、集群调度等相关技术。其中，智能决策是无人车的关键核心技术

之一，其性能是衡量无人车智能化水平的重要标准。智能决策系统根据任务调度信息、环境感知信息和无

人车状态信息等，做出合理、安全的驾驶决策，并输出车辆控制指令，以控制车辆完成指定任务。

无人车智能决策系统的算法主要包含规则驱动

[1-2]

和数据驱动两类算法

[3-4]

。由规则驱动的决策系统

基于既定规则构建，其根据人类驾驶经验及交通规则等建立相应的驾驶行为决策库，结合感知系统得到的

环境信息进行车辆状态的划分，依据预设的规则逻辑确认车辆行为

[5]

。这类基于规则的决策系统无法枚举

和覆盖所有交通场景，且在交通复杂、不确定性强的路况中，常因规则数目冗杂和行为决策库触发条件的

重叠而导致决策无法求解、决策系统的自适应性和鲁棒性不足等问题。基于强化学习的决策方法是数据驱

动的无人车决策系统的代表，该方法将无人车决策过程视为黑箱，利用机器学习建立由传感器到转向系

统、驱动系统、制动系统等执行机构的映射，实现基于高维度感知数据对执行机构的直接控制。这类决策

算法把整个自动驾驶过程与神经网络深度融合，通过由数据驱动的仿真训练使神经网络学习在不同交通场

景下的智能决策能力。

强化学习技术是人工智能领域的研究热点，适用于解决复杂的序贯决策问题，在机器人控制

[6-7]

、调

度优化

[8-9]

、多智能体协同

[10-11]

等领域中，取得了令人瞩目的成果。强化学习的基本思路是智能体依靠探

索试错以及环境交互的方式，结合反馈信号学习最优策略。近些年，随着强化学习的广泛研究和应用，特

别是综合了深度学习的特征提取能力和强化学习的策略优化能力的深度强化学习(deep reinforcement

learning，DRL)取得突破性进展之后，采用强化学习技术解决无人车智能决策问题成为无人车领域最受关

注的研究方向之一。

本文旨在综述强化学习在无人车领域的应用。首先介绍了强化学习的发展历史、基础原理和核心算

法；然后分析总结了强化学习在无人车智能决策问题中的研究现状，包括避障、变道与超车、车道保持及

道路交叉口通行四个典型的决策场景；最后探讨并展望了未来的研究工作和潜在的研究方向。

1 强化学习的基本理论 1.1 强化学习发展历史

强化学习是动物心理学、最优控制理论和时序差分学习等学科交叉的产物

[12]

。强化学习的“试错”思

想源于动物心理学家对试错行为的研究，最早可追溯到 Pavlov 的条件反射实验。1911 年美国心理学家

Thorndike 提出效应定律，第一次明确地阐述了试错行为的本质是学习。最优控制理论，是现代控制体系

的关键分支之一。在 20 世纪 50 年代初，美国数学家 Bellman 等提出求解最优控制的动态规划法

(dynamic programming，DP)，该方法衍生出了强化学习试错迭代求解的机制。时序差分学习(temporal-

difference learning，TDL)是 DP 和蒙特卡洛方法结合的产物。1959 年 Samuel 首次提出并实现一个包含

时序差分思想的学习算法。1989 年 Watkins 在他的博士论文将最优控制和 TDL 整合，并提出 Q 学习算

法，这项工作正式标志着强化学习的诞生，该算法通过优化累积未来奖励信号学习最优策略。随后，

Watkins 和 Dayan 共同证明 Q 学习算法的收敛性。表 1 总结了强化学习发展历程中的若干重要事件。

图 1 强化学习模型 Fig.1 Reinforcement learning model

图选项

式中，γ 为折扣因子，Q

(s，a)为状态—动作值函数，表示智能体在环境状态 s

=s，执行动作 a

时累计奖励的数学期望。

强化学习依据智能体和环境持续交互进程之中的相关数据，持续优化与修正策略 π。基于数次迭代

处理之后，可以学习获得最优策略 π

，使得 Q

(s，a)最大。

(3)

1.3 强化学习主要算法 1.3.1 强化学习算法分类

强化学习算法主要分为基于值函数(value-based)和基于策略(policy-based)的强化学习两类

[14]

。基

于值函数的强化学习算法以优化值函数为目标间接学习执行动作的策略，主要包括 Q 学习算法、SARSA

算法、深度 Q 网络等。这类强化学习算法主要应用于离散动作空间下的决策任务，当动作空间复杂或连

续时，会产生维数爆炸的问题。针对高维及连续动作空间下的决策问题，常利用基于策略的强化学习算法

求解。此类算法将策略参数化表达，运用策略梯度的方法优化策略，从而实现累积奖励最大化。经典的基

于策略的强化学习算法包括深度确定性策略梯度、异步优势演员—评论家、信任域策略优化、近端策略优

化等。

强化学习亦可按照其他方法进行分类：根据环境模型是否确定可分为基于模型(model-based)和无模

型(model-free)强化学习；根据执行以及评估策略一致与否，可将其划分成同、异策略的两个类别；依据

更新机制则可划分成回合与单步更新。

1.3.2 基于值函数的强化学习

Q 学习是一种无模型、异策略的强化学习算法，其思路是定义 Q 函数，即状态—动作值函数来间接

评估策略的优劣

[15]

。Q 学习以 MDP 为基础，在智能体执行每一步动作后，将在线观测到的奖励代入到动

态规划方程中。Q 函数的更新是通过动态规划中的值迭代方法获得的，其公式为

(4)

式中，Q(s

，a

)为时刻 t 的状态—动作值函数，r

t+1

为智能体获得的奖励，α 为学习率。

持续迭代之后，Q 函数收敛进而获取最优策略 π

。在实际应用中，常需处理高维或连续的状态和动

作空间下的决策问题，Q 学习算法迭代求解最优策略面临维数灾难的问题。学者将具有强大的特征提取能

剩余11页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3576
资源: 1万+

强化学习在无人车领域的应用与展望.docx

机器学习在无人农场中的应用现状与展望.pptx

高校图书馆应用微信小程序的实践与展望.docx

电力调度OMS系统应用现状与展望.docx

云安全在数据安全领域的应用及发展.docx

人工智能的应用领域及其未来展望.docx

开题报告 我国城市道路交通控制管理新技术应用与展望.docx

微信小程序在高校教学中的应用与推广.docx

齿轮测速的发展与展望.docx

疫情影响下人工智能的应用与展望.docx

数字化工厂技术发展与展望.docx

我国计算机审计的现状与展望.docx

海洋颗粒物的原位细致分类、应用与展望.docx

综合交通大数据应用技术的发展展望.docx

公司信息化建设的成果与展望.docx

人工智能在全球油气工业领域的应用现状与前景展望.docx

中国互联网金融创新及治理回顾与展望.docx

论信息技术在电力内部审计的应用.doc.docx

物联网技术在智能交通中的应用展望.docx

蜂窝车联网（C-V2X）技术发展、应用及展望.docx

教育信息化背景下中小学数字教材规模化应用与展望.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

matlab批量读取excel表格数据并处理画图

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

最新资源

开题报告我国城市道路交通控制管理新技术应用与展望.docx