【免费】基于模糊神经网络的强化学习及其在机器人导航中的应用

需积分: 0 30 浏览量 2022-08-04 16:38:09 上传评论收藏 573KB PDF 举报

资源详情

资源评论

资源推荐

第 22 卷第 5 期

V ol. 22 No . 5

控制与决策

Contro l and Decision

2007 年 5 月

M ay 2007

收稿日期: 2006-03-20; 修回日期: 2006-04-28.

基金项目: 国家自然科学基金项目( 60475036) .

作者简介: 段勇( 1978) ) , 男, 沈阳人, 博士生, 从事智能机器人、机器学习的研究; 徐心和( 1940-) , 男, 河北山海关

人, 教授, 博士生导师, 从事智能机器人、模式识别等研究.

文章编号: 1001-0920( 2007) 05-0525-05

基于模糊神经网络的强化学习及其在机器人导航中的应用

段勇, 徐心和

( 东北大学信息科学与工程学院, 沈阳 110004)

摘要: 研究基于行为的移动机器人控制方法. 将模糊神经网络与强化学习理论相结合, 构成模糊强化系统. 它既可

获取模糊规则的结论部分和模糊隶属度函数参数, 也可解决连续状态空间和动作空间的强化学习问题. 将残差算法

用于神经网络的学习, 保证了函数逼近的快速性和收敛性. 将该系统的学习结果作为反应式自主机器人的行为控制

器, 有效地解决了复杂环境中的机器人导航问题

关键词: 强化学习; 模糊神经网络 ; Q( K) 学习; 机器人导航

中图分类号: T P181 文献标识码: A

Reinforcement learning based on FNN and its application in robot

navigation

DU A N Y ong , X U X in-he

( College of Info rmation Science and Engineering, N orthea ste rn U nive rsity, Sheny ang 110004, China. Cor respo ndent:

D U AN Y ong, E-mail: duanyo ng 0607@ 126. co m)

Abstract: Behavio r-based ro bot nav ig atio n is studied. T he fuzzy neural netwo rk ( F N N ) and reinfo rcement lea rning

( RL ) are integ rated. RL is utilized fo r struc ture identificatio n and parameters tuning of FN N . T he pr oblem of

co ntinuous, infinite states and actions in RL is so lved by using the function approx imation of F N N. Furthermo re, the

residual alg orithm is applied to the FN N learning, which g uarantees the co nv erg ence and rapidity . T hen, the lea rning

results a re employ ed to design the contr oller o f the reactive robo t system, by w hich the problem o f navig ation under

complicated environment is solv ed effective ly.

Key words: Reinfo rcement learning; Fuzzy neural ne two rk; Q( K)-learning; Robo t navig ation

引言

基于行为的机器人能直接完成从感知到行为的

映射, 具有快速执行性和灵活性, 已成为机器人学和

人工智能领域的研究热点之一. 传统的反应式机器

人研究方法通常基于具体的环境模型, 存在环境知

识获取困难、环境模型难以建立、自适应能力差等问

题. 强化学习具有不依赖于环境模型、不需要先验知

识以及鲁棒性强等优点, 已成为基于行为的机器人

研究的一个新的方向.

强化学习( RL) 是指 A gent 从环境状态到动作

映射的学习, 以使动作从环境中获得的累积强化信

号( 回报) 最大. 在强化学习的实际应用中, 当状态空

间和动作空间连续或数量过多时, 强化学习收敛速

度过慢甚至难以实现. 解决这一问题的有效方法是

利用函数逼近算法来逼近状态空间到动作空间的映

射. 神经网络( NN) 和模糊推理系统( FIS) 具有广泛

的逼近特性, 可实现从输入到输出的任意非线性映

射

[1 ]

. 近年来, 一些多层前馈神经网络已用于实现强

化学习算法

[ 2-4]

, 基于 FIS 的 Q 学习算法

[5 ]

也已提

出. 神经网络具有容错能力强、自适应学习等优点,

但它不能很好地利用经验知识, 使得网络学习时间

较长, 也较难收敛到全局极值. FIS 则能充分利用先

验知识, 其推理方式也符合人类的思维模式, 但它的

自学习能力和自适应能力较差

[1 ]

模糊神经网络( F NN) 将 FIS 与 NN 相结合, 具

有二者的优点, 目前已广泛应用于求解具有不确定

性和非线性的控制问题. F N N 具有广泛的函数逼近

特性, 用它实现 RL 能有效解决状态空间过大时算

DOI：10.13195/j.cd.2007.05.47.duany.009

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论收藏

内容反馈

大禹倒杯茶

粉丝: 13
资源: 331

基于模糊神经网络的强化学习及其在机器人导航中的应用_段勇1

评论0

最新资源

基于模糊神经网络的强化学习及其在机器人导航中的应用_段勇1

评论0

基于模糊强化学习的双轮机器人姿态平衡控制.pdf

基于模糊神经网络的强化学习及其在机器人导航中的应用

基于强化学习算法的自适应直流附加阻尼控制器

基于模糊神经网络的强化学习及其在机器人导航中的应用 (2007年)

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

goby红队&社区版-win-64-2.4.7

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

OpenVAS离线资源

全面的安全基线核查清单

2023年最全最精简wifi密码字典(2.6G)

CISP、NISP二级、CISE题库最新版（2024年1月更新）

Kali安装burpsuite专业版

hackbar2.1.3-master安装包

关于STM32F103C8T6芯片的一些重要引脚功能的整理1

UN R155 信息安全法规 中英文版

国赛ciscn2024-WP-re2-androidso-re(unidbg模拟执行Native层方法)

国赛ciscn2024-WP-re6-gdb-debug(伪随机数保护)

LiqunKit-1.6.2

14.视觉SLAM十四讲(高翔第二版)1

Move-Certificates-v1.9.zip

最新资源

UN R155 信息安全法规中英文版