没有合适的资源?快使用搜索试试~ 我知道了~
<p>针对认知机器人的自主学习问题, 提出一种基于操作条件反射原理的学习模型(OCLM). 该模型采用状态空间、操作行为空间、概率分布函数、仿生学习机制、系统熵等进行描述, 给出状态的“负理想度”的概念, 定义了取向函数的计算方法. 运用模型对机器人避障导航问题进行仿真实验, 并对参数设置进行了讨论. 实验结果表明, 基于OCLM模型的机器人能通过与环境的交互获得认知, 成功避障到达目的地, 具有一定的自学习能力, 从而表明了模型的有效性.</p>
资源推荐
资源详情
资源评论
第 29 卷 第 6 期
Vol. 29 No. 6
控 制 与 决 策
Control and Decision
2014 年 6 月
Jun. 2014
一种基于操作条件反射原理的学习模型
文章编号: 1001-0920 (2014) 06-1016-05 DOI: 10.13195/j.kzyjc.2013.0522
阮晓钢
a
, 黄 静
a,b
, 范青武
b
, 魏若岩
a
(北京工业大学 a. 电子信息与控制工程学院,b. 实验学院,北京 100124)
摘 要: 针对认知机器人的自主学习问题, 提出一种基于操作条件反射原理的学习模型 (OCLM). 该模型采用状态
空间、操作行为空间、概率分布函数、仿生学习机制、系统熵等进行描述, 给出状态的“负理想度”的概念, 定义了取
向函数的计算方法. 运用模型对机器人避障导航问题进行仿真实验, 并对参数设置进行了讨论. 实验结果表明, 基于
OCLM 模型的机器人能通过与环境的交互获得认知, 成功避障到达目的地, 具有一定的自学习能力, 从而表明了模型
的有效性.
关键词: 学习模型;操作条件反射;自学习;仿生;避障
中图分类号: TP273 文献标志码: A
A learning model based on operant conditioning principles
RUAN Xiao-gang
a
, HUANG Jing
a,b
, FAN Qing-wu
b
, WEI Ruo-yan
a
(a. College of Electronic Information and Control Engineering,b. Pilot College,Beijing University of Technology,
Beijing 100124,China.Correspondent:HUANG Jing,E-mail:mymailhj@sohu.com)
Abstract: Inspired by Skinner’s operant conditioning theory, an operant conditioning learning model is presented to deal
with the autonomous learning problem in cognitive robotics. The model is described by nine elements, including the space
set, the action set, the bionic learning function and the system entropy etc. A notion “negative ideal rate” is defined to
compute the orientation function. The OCLM is applied to solve obstacle avoidance and navigation problems for mobile
robots. The experiment results show that the robot based on the model can autonomously learn how to arrive at the goal in a
collision-free way through interaction with the environment, and show the effectiveness of the proposed model.
Key words: learning model;operant conditioning;autonomous learning;bionics;obstacle avoidance
0 引引引 言言言
心理学发展至今, 其理论成果深刻地影响着人工
智能、认知机器人学等相关领域的研究. 学习借鉴心
理学的经典理论, 对其进行数学建模, 用于解决机器
人的实际控制问题, 已成为人工智能、认知机器人研
究的一种新思路.
1938 年, Skinner
[1]
首次提出了操作条件反射的
概念, 并由此创立了操作条件反射理论. 他借鉴巴甫
洛夫的“强化”概念, 并将这一概念的内涵进行了革新.
将“强化”分为正强化和负强化两种, 正强化促使有机
体对刺激的反应概率增加, 负强化促使有机体消除
该刺激的反应增加. 刺激产生反应, 反应影响刺激出
现的概率, 这正是斯金纳操作条件反射理论的核心.
Skinner 的这一理论对智能体的学习行为给出了清晰
的描述, 吸引了很多学者对其进行研究. Zalama 等
[2]
基于 Grossberg 的条件反射模型研究了机器人的避障
问题, 该模型借用经典条件反射理论中“条件刺激”和
“非条件刺激”的概念, 以距离数据为条件刺激, 碰撞
为非条件刺激, 使训练后的机器人能在无导师信号的
情况下学会在任意位置的避障. 此后, Gaudiano 等
[3-4]
进一步发展了该模型, 将其与人工神经网络相结合,
应用在实物机器人 Pioneer 1 和 Khepera 上, 进行了避
障方面的实验, 效果良好, 但是, 模型更侧重于对经
典条件反射的建模, 对操作条件反射涉及较少. Ishii
等
[5]
为了研究动物与机器人之间的交互问题, 基于操
作条件反射理论, 在机器人 WM-6 和老鼠之间对斯金
纳老鼠实验进行了复现, 对比实验表明, 机器人与老
鼠之间的交互加快了操作条件反射建立的速度, 提高
收稿日期: 2013-04-27;修回日期: 2013-07-30.
基金项目: 国家自然 科学基金项目(61075110);北京市自然科学基金项 目(KZ201210005001);国家 973 计划 项目
(2012CB720000);高等学校博士学科点专项科研基金项目(20101103110007).
作者简介: 阮晓钢(1958−), 男, 教授, 博士生导师, 从事控制科学与工程、人工智能与认知科学、机器人学与机器人技术
等研究;黄静(1979−), 女, 博士生, 从事人工智能与认知科学、智能控制的研究.
资源评论
weixin_38635449
- 粉丝: 5
- 资源: 971
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- xdxdxdxdxdxdxdxdaaaaaaaa
- score.sql 数据库表格
- 技术资料分享信利4.3单芯片TFT1N4633-Ev1.0非常好的技术资料.zip
- 技术资料分享手机-SMS-PDU-格式参考手册非常好的技术资料.zip
- 技术资料分享Z-Stackapi函数非常好的技术资料.zip
- 技术资料分享Z-Stack-API-Chinese非常好的技术资料.zip
- 技术资料分享Z-Stack 开发指南非常好的技术资料.zip
- 技术资料分享Zigbee协议栈中文说明免费非常好的技术资料.zip
- 技术资料分享Zigbee协议栈及应用实现非常好的技术资料.zip
- 技术资料分享ZigBee协议栈的研究与实现非常好的技术资料.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功