没有合适的资源?快使用搜索试试~ 我知道了~
<p>针对一类单输入单输出高阶非线性控制系统, 提出一种基于滑模思想和Elman 网络的操作条件反<br> 射(OCR) 学习控制方法. 该方法采用Elman 网络构造滑模面-行为对的评价函数, 通过滑模面的变化设计奖赏函数,<br> 根据奖赏信号更新评价函数, 实现行为选择概率的更新. 通过每轮次熵的定义, 定量分析了所学知识的变化量. 针对<br> 行走倒立摆系统的仿真实验结果表明, 采用该仿生的OCR学习控制方法, 可实现行走倒立摆的平衡控制.</p>
资源推荐
资源详情
资源评论
第 26 卷 第 9 期
Vol. 26 No. 9
控 制 与 决 策
Control and Decision
2011 年 9 月
Sep. 2011
基于滑模思想和 Elman 网络的操作条件反射学习控制方法
文章编号: 1001-0920 (2011) 09-1398-04
阮晓钢, 陈 静
(北京工业大学 电子信息与控制工程学院,北京 100124)
摘 要: 针对一类单输入单输出高阶非线性控制系统, 提出一种基于滑模思想和 Elman 网络的操作条件反
射 (OCR) 学习控制方法. 该方法采用 Elman 网络构造滑模面-行为对的评价函数, 通过滑模面的变化设计奖赏函数,
根据奖赏信号更新评价函数, 实现行为选择概率的更新. 通过每轮次熵的定义, 定量分析了所学知识的变化量. 针对
行走倒立摆系统的仿真实验结果表明, 采用该仿生的 OCR 学习控制方法, 可实现行走倒立摆的平衡控制.
关键词: 操作条件反射;滑模控制;Elman 网络;熵;倒立摆;平衡控制
中图分类号: TP273 文献标识码: A
Operant conditioning reflex learning control scheme based on SMC and
Elman network
RUAN Xiao-gang, CHEN Jing
(School of Electronic Information and Control Engineering,Beijing University of Technology,Beijing 100124,China.
Correspondent:CHEN Jing,E-mail:chenjing0828@139.com)
Abstract: A bionic operant conditioning reflex(OCR) learning control scheme is proposed based on the thought of sliding
model control(SMC) and Elman network for a class of SISO higher-order nonlinear control system. In this method, an Elman
network is used as an evaluation function of sliding surface and action in the scheme. Reward signal is designed according to
the change of sliding surface, and then the evaluation function is updated through the reward stimulation, while the behavior
choice probability is changed. Through the definition of entropy for each round, a quantitative analysis about the knowledge
change in the learning process is given. The results of the simulation experiment in the walking inverted pendulum system
show that, bionic OCR learning control is used, which realizes the balancing control for the walking inverted pendulum
system.
Key words: operant conditioning reflex;sliding model control;Elman network;entropy;inverted pendulum;balancing
control
1 引引引 言言言
仿生自主学习控制是近年来机器人领域的研究
热点, 基于操作条件反射 (OCR) 原理的智能体学习源
于心理学, 是一种集计算机技术、自动控制技术、仿
生学、心理学、生物学于一体的一项理论, 目前对该
理论的研究成果多见于生物实验方面, 在机器人控制
方面应用并不多见. 能够体现操作条件反射原理的理
论主要有概率自动机理论和离散动作的 Q 学习理论,
其中重要的一个特点是行为的概率选择机制.
1938 年, 美国哈佛大学心理学教授 Skinner 发表
了一部具有影响力的著作
[2]
, 由此创立了 Skinner 操
作条件反射理论 (OCR). 操作条件反射
[1-2]
和经典条
件反射
[3]
是联想学习的两个主要的学习方式, 所有的
动物 (包括人类) 都能体现这两种方式. 不同的是, 操
作条件反射 (OCR) 体现的是行为和行为产生的结果
之间的联结关系.
操作条件反射理论得到了国内外学者的广泛关
注, 近年来, 人们把操作条件反射理论应用于机器
人学习和控制方面, 做了大量的实验和研究. 德国的
Brembs 等人
[4-6]
利用果蝇和蜗牛实验, 研究了操作条
件反射, 将“纯”操作条件反射和并行操作条件反射在
一个生物的飞行仿生器中进行了模拟, 指出智能体
收稿日期: 2010-06-01;修回日期: 2010-08-25.
基金项目: 国 家 863 计 划项 目(2007AA04Z226); 国 家 自 然 科学 基 金 项 目(60774077); 北 京市 自 然 科 学 基 金项 目
(4102011);北京市教委重点项目(KZ200810005002).
作者简介: 阮晓钢(1958−), 男, 教授, 博士生导师, 从事机器人、自动控制等研究;陈静(1984−), 女, 博士生, 从事机器
人、智能控制等研究.
资源评论
weixin_38709379
- 粉丝: 3
- 资源: 954
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 使用Python和Pygame实现圣诞节动画效果
- 数据分析-49-客户细分-K-Means聚类分析
- 企业可持续发展性数据集,ESG数据集,公司可持续发展性数据(可用于多种企业可持续性研究场景)
- chapter9.zip
- 使用Python和Pygame库创建新年烟花动画效果
- 国际象棋检测10-YOLO(v5至v11)、COCO、CreateML、Paligemma、TFRecord、VOC数据集合集.rar
- turbovnc-2.2.6.x86-64.rpm
- 艾利和iriver Astell&Kern SP3000 V1.30升级固件
- VirtualGL-2.6.5.x86-64.rpm
- dbeaver-ce-24.3.1-x86-64-setup.exe
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功