下载  >  开发技术  >  其它  > 论文研究-基于队形分布和Q学习的多机器人围捕策略 .pdf

论文研究-基于队形分布和Q学习的多机器人围捕策略 .pdf 评分

基于队形分布和Q学习的多机器人围捕策略,陈阳舟,黄旭,提出了一种机器人队形矩阵的标识方法,设计了维数更少的状态空间。 通过分析不同队形对围捕的利弊,设计了状态评价及强化函数,��
中国科花论文在线 足 ,这里符号表示队形分布中第号围捕者的个体状态, 为 对进行求余运算,为围捕机器人个数。 020|0 UU11UU 队形 队形 图旋转队形及其矩阵表小 对称队形 图的个队形是对称关系,由于采用基于行为的控制方法,求取的权值对于具有对称 位置关系的围捕者所学习的策略是能共享的,因此可以进一步缩小状态数量。首先定义:若 对于队形分布矩阵中的某行 存在另一行 则称它们具有对 称关系,记为<〉。因此对称队形的队形分布矩阵的特点为: )(其中 0U0 队形占 佟对称队形及矩阵表示 队形的关系 以图中的队形为例,号和号围捕者应共享学习的结果,其个体状态矩阵也是 对称关系,因此当在一个队形矩阵中发现有与自己的状态矩阵对称的状态矩阵则视为同一状 态,前提是它们的队形矩阵相同或具有旋转、对称队形关系。 状态空间及权值选择 通过缩编及实验统计,常见的队形状态及相应矩阵见图。不同的队形状态结合个体状 态,每个围捕者的常见状态被分为个。 国科技论文在线 0110020|0 0 2「0 010 00200 010 11 0 0|0 020 0020111 002 0200110 00 0 011001011 0111002000 0020 001 10 00023101000201011010 ○ 图常见队形分布及矩阵 制捕者搜索学习空间及动作选择的流程如下 获得个体矩阵及队形矩阵 在样本斥中查找队形矩阵,判断是否存在致的队形矩阵,若是则转向 否则进行下步 判断是否符合第二类队形关系,若是则转向,否则进行下一步 将队形矩阵按第一类队形关系变换,变换次数累加,判断总次数是否小于 若是则转向 否则进行下一步 在样本库中添加新的队形矩阵,转向 获得个体矩阵在该队形矩阵中一致或对称的个体矩阵序号 策略选择权值 引导回报 在合作型的学习任务中全局半均奖励机制史能促成社会合作行为的形成。然而,在上 述的队形矩阵标识法中,如果划分过细则导致状态数增多,降低学习收敛速度,若划分过粗 又会因状态区分精度不足而对学习结耒的合理性产生影响。为了解决这个问题,可以尝试各 个机器人独自拥有各自的学习衣并进行更新,但这会使得单位时间内获得的更新频率降低, 从而影响学习的收敛遮度。与之相对应,如果是共用一个学习表使多个机器人共同学习,贝 增加了相同周期下的值更新次数,可以加快学习次数。本文根据这一思想再将队形分 布状态的好坏分成不同等级,通过等级引导的方式,将全局平均奖励分配分散到队形变化的 过稈中,从而降低由于划分精度造成的影响。 队形评价 观察图可以发现个规律,在内侧两列非零数值分布较多的矩阵,队形较合理且更易 于围捕,而内侧两列中非零数值分布均匀的队形状况又更为有利;与之相反,外侧两列非零 国科技论文在线 数值分布越多且越不均匀的知阵,对应的队形分布状况越不利于直接围捕 可以解释如下:内侧两列的数值反应的是围捕者的“左上”、“右上”方的队友分布状 况,左右越均匀说眀越多的机器人有类似位置状况,这显然有利于直接围捕。相反,如果矩 阵外侧存在非零数值情况较多,即围捕者始终把自己的队友甩在“身后”,这个队形显然是 不容易围捕猎物的。由此定义队形状态评价函数 用以表小第个新队形状态的队形的评价值,其中是内侧数值的期望, 是 外側数值的方差,α是修正值,其值可根据实验效果做适当的调整。 强化信号的计算及其它奖惩办法 在围捕过程中任何队形随时都会岀现,引导围捕者团队选择在短时间内形成有利队形, 尽快摆脱不利队形。采用下式表示对队形的奖惩: () 式中记录的是每个队形保持的时间长短。的作用为:当旧队形比新队形差的时候, 获得的奖劢为正,但随的延长而减少;当旧队形比新队形好的时候,获得的奖励为负,且 随的增加而增加。同时,因为奖惩的值是有界的,所以状态动作对最终能够收敛到最优 为了在短时间内尽可能多的探索并更新学习空间,当某一个队形保持时间超过一定值 时,就重新选择动作(权值),但不对原状态动作对进行惩罚。 仿真结果及分析 下面根据上述算法进行仿真实验,分析围捕耗时随抓捕次数增加的变化情况,并探讨原 因 实验设计 假定有三个围捕者和一个逃逸者,每次的初始位置随机产生; 仿真环境为 的平面,所有机器人在该平面内运动 围捕者感知区域划分为四个,即:“左上”、“右上”、“左卜”、“右下”,逃逸 者采用远离自己最近的围捕者的逃逸策略,假定所有机器人速相同; 当任意两个围捕机器人的衣面距离小于逃逸者的物理直径的情况下,认为“次围捕成 功; 假设抓捕次。实验过程就是测量每次围捕所消耗的时间。 实验结果及分析 国科技论文在线 兰叵 10 围捕次数 图不含ˉ限制作用的情况 半埋旺 国捕;款 佟含限制作用的情况 出回慨四 图传感范围缩小一半 从图可以看出,伴随着抓捕次数,耗时表现出很人的震荡,尤其在初期。导致这 现象的原因有很多:每次抓捕开始时机器人所处位置分布都是随机产生,只有部分分布状况 国科技论文在线 有利于直接抓捕;不同权值表现岀的捕获效果差别很大,而在实验的初期阶段探索策略就是 鼓励尽可能多的拓展学习空间;基于队形评价的全局奖惩机制引导学习向好的方向收敛,但 队员初期探索会造成队形恶化,例如某机器人试探错误的策略直接导致队形恶化,全队都接 到惩罚,这对最终形成的策略的合理性存在影响;逃逸者的策略也是导致队形恶化的原因 图是采用不带时间因子的奖励办法,结果不是很理想甚至是发散的。原因可能是由于 没有对时间的要求,只要能够变成有利队形,获得的奖励是一样的,使得机器人变得“懒惰, 使得前述几种情况发生的几率大増,对形成策略的合理性产生影响。从图可以看出,时间 因子的作用使得机器人群体更倾向于采用可以更快获得正回报的策略,也因此能够逐渐的减 少抓捕耗时。图显小的是当机器人的传感半径缩小一半以后的结果,可以发现整体上耗时 更少,原因可能除了留给逃逸者逃逸的空间较小之妒,因为机器人做山围捕动作是在其“搜 寻”程序得到结果之后触发的,这就使得在更接近目标的范围内丌始围捕,尽管围捕者感知 区域划分只有个,但由于相互距离更近,队形判断的误差减小,相当于增加了划分精度。 结论 围捕问题的方法多是在固定策略上寻找解决办法,采用学习的方式较少,且在目前的学 方法设计中状态空间存在严重的维数灾问题。木文提出的队形矩阵可以标识位置分布状 态,缩小状态维数。划分的精度对学习的速度或者收敛结果合理性有影响,但是时间因子 引导奖励以及感知范围可以减少其对全局奖励造成的影响,不过仍然未能完全解决问题。实 验表明该状态划分方式能够引导多机器人队形有效地进行抓捕。这为多机器人队形形成的相 关研究提供了一个新的思路,未来可以将整体状态作为更高协调层面的学习优化策略的参考 依据 参考文献 李淑梦,王欢,李伟,等基于动态角色的多机器人目标市捕问题算法研究系统仿頁学报 韩学东,洪炳熔,盂伟多机器人任意队形分冇式控制研究机器人 宋梅萍,顾国昌,张汝波多移动机器人协作任务的分布式控制系统机器人, 苏治宝,陆际联,童亮一种多杋器人协作围捕策畩华中科技人学学报, 机器学习曾华军,张银奎译北京:机械工业出版社 国科技论文在线

...展开详情
所需积分/C币:8 上传时间:2019-08-18 资源大小:230KB
举报 举报 收藏 收藏
分享 分享
论文研究-基于k-means聚类算法的研究 .pdf

基于k-means聚类算法的研究,黄韬,刘胜辉,本文首先分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机��

立即下载
论文研究-基于SDN的融合网络研究 .pdf

基于SDN的融合网络研究,曹冉,寿国础,随着网络技术的高速发展,大量不同的网络业务、通信设备不断涌现,使用户置身于一种复杂多样的网络环境中。因此,如何实现多种互��

立即下载
论文研究-基于JDBC的数据库访问研究 .pdf

基于JDBC的数据库访问研究,于宁宁,赵宗平,JDBC兼具有强大的数据处理功能,它可以处理各种不同类型的数据源,同时具有极其简单、易用的编程接口,因而得到了广泛的应用。为��

立即下载
论文研究-基于CUDA的SAR成像算法研究 .pdf

基于CUDA的SAR成像算法研究,何丰,任义,雷达技术的不断发展使合成孔径雷达(SAR) 成像处理呈现出算法复杂化、数据海量化、运算密集化等趋势,在基于中央处理器(CPU)的平台上�

立即下载
论文研究-基于QoS的上行调度算法研究 .pdf

基于QoS的上行调度算法研究,朱歆垚,别红霞,随着无线通信与生产需求的发展,越来越多的任务需要设备在没有人干预的情况下进行相互通信来完成,我们称之为 M2M通信。LTE网络支��

立即下载
论文研究-基于Asterisk的SS7集群研究 .pdf

基于Asterisk的SS7集群研究,王晓栋,詹舒波,Asterisk作为一个开源的VoIp PBX 系统,是一个在Linux环境下的纯软件实施方案,完成了各种IP PBX 的功能。它免费,开源,可二次开发的特性�

立即下载
论文研究-基于EPZS的运动估计算法研究 .pdf

基于EPZS的运动估计算法研究,许晨,刘彦隆,运动估计是H.264中的关键技术之一,是数据压缩的重要部分,但也耗费了整个编码时间的巨大一部分。为了适应实时性的需求,人们在保�

立即下载
论文研究-基于3-matic的有限元前处理方法研究 .pdf

基于3-matic的有限元前处理方法研究,王伟,杨亚男,针对数字化CAD模型的STL格式文件无法直接生成三维实体模型进行有限元分析的问题,本文提出了基于3-matic的有限元前处理技术,即将扫��

立即下载
论文研究-基于EPON的动态带宽分配算法研究 .pdf

基于EPON的动态带宽分配算法研究,陈存康,,本论文展示了一种基于以太网的下一代无源光网络(EPON)。并且提出了一种称为固定周期流水线轮询(CPP)的动态带宽分配算法(DBA)��

立即下载
论文研究-基于WoT的接口协议 .pdf

基于WoT的接口协议,周密,孙礼,由于物联网设备种类繁多,网络架构区别较大,整个物联网系统相对封闭等问题,物联网的进一步发展受到了很大的阻碍。而Web of Things��

立即下载
论文研究-基于条件随机场的中文分词研究 .pdf

基于条件随机场的中文分词研究,张成志,王洪波,本文对基于条件随机场的中文分词理论和技术做了研究,并基于开源的crf 实现了一个中文分词器。CRF模型将分词转化为标记问题,充分�

立即下载
论文研究-基于语义的三维模型检索框架研究 .pdf

基于语义的三维模型检索框架研究,郭爽,冷彪,语义研究是目前三维模型检索技术的一个重要研究方向。传统的三维模型检索技术依托于以模型特征向量为存在形式的底层特征信息,其��

立即下载
论文研究-基于VRML的三维仿真建模算法研究 .pdf

基于VRML的三维仿真建模算法研究,王昊鹏,刘永玉,随着Internet的发展,以VRML为代表的基于WWW的虚拟现实建模技术正在日益受到广泛的重视。基于VRML、遥感技术构建虚拟三维环境可以对农��

立即下载
论文研究-基于RSSI的ZigBee室内定位算法研究 .pdf

基于RSSI的ZigBee室内定位算法研究,高永清,商丹,通过分析对数距离路径损耗模型、待定位节点定位过程中产生的误差,提出了首先采用基于RSSI和均值滤波与加权质心混合定位算法进行��

立即下载
论文研究-基于JADE的兵棋推演系统研究 .pdf

基于JADE的兵棋推演系统研究,刘转,李德华,针对传统兵棋推演系统在缺乏描述复杂系统的能力,以及缺乏对动态环境的行为建模能力的缺点,本文构建一个基于JADE的兵棋推演系统��

立即下载
论文研究-基于FPGA的视频采集显示系统研究 .pdf

基于FPGA的视频采集显示系统研究,黄河,张小松,本文详细介绍了基于FPGA技术的的视频采集显示系统。在本系统中,将FPGA 作为视频采集系统的控制中心,利用FPGA芯片高度集成、高速度��

立即下载
论文研究-基于深度学习的人脸识别算法研究 .pdf

基于深度学习的人脸识别算法研究,赵学斌,张雷,传统的人脸识别算法主要是基于图像的浅层特征提取,比如LBP、SIFT、HOG等图像特征描述算子,然后进行多种浅层特征融合,PCA降维之后��

立即下载
论文研究-基于蚁群算法的LEACH协议研究 .pdf

基于蚁群算法的LEACH协议研究,王静,胡彧,针对LEACH协议中簇头节点与汇聚节点之间采用单跳通信造成能量损耗过快的问题,提出了一种基于蚁群算法的LEACH协议,该算法利用蚁群��

立即下载
论文研究-基于改进EMD的语音增强方法研究 .pdf

基于改进EMD的语音增强方法研究,卢志茂,孙美玲,EMMD分解后的信号虽然解决了EMD中存在的端点效应问题,但是存在音乐噪声,因此,本文提出一种基于EMMD/MMSE的语音增强方法。该算法是��

立即下载
论文研究-基于Logistic混沌序列通信系统仿真研究 .pdf

基于Logistic混沌序列通信系统仿真研究,宗恒山,李艳萍,针对扩频序列的好坏直接关系到扩频通信系统性能的好坏,本文提出了一种基于Logistic混沌序列的直扩通信系统模型。经过系统仿真实验�

立即下载