基于深度强化学习的双足机器人斜坡步态控制方法.docx资源-CSDN文库

版权申诉

196 浏览量 2023-02-23 20:19:34 上传评论 1 收藏 2.84MB DOCX 举报

资源推荐

资源详情

资源评论

服务机器人融合了机械、控制、计算机、人工智能等众多学科, 在各个领域得到应用,

如足式机器人

[1]

、水下机器人

[2-4]

、无人船舶

[5]

、无人飞行器

[6]

等, 是目前全球范围内前沿高

科技技术研究最活跃的领域之一. 双足机器人是服务机器人中的一种仿人足式移动机器人,

能够适应街道、楼梯、废墟等复杂的地形环境, 可替代人类从事救援、医疗、勘探、服务

等行业. 在双足机器人中, 基于被动步行(Passive dynamic waking)

[7]

理论设计的被动双足机

器人, 因结构简单、步态柔顺、能耗低等优点受到广泛研究. 被动双足机器人可充分利用自

身动力学特性, 仅依靠重力与自身惯性便能沿斜坡向下行走. 然而, 被动双足机器人在行走

过程中因缺乏主动控制, 存在步行稳定性差、抗扰动能力弱等不足. 为弥补这些不足, 研究

人员通过对被动双足机器人部分关节施加控制, 研发出准被动双足机器人

[8]

, 提升了双足机

器人的步态控制能力.

为进一步提高准被动双足机器人步行稳定性, 步态控制方法的研究逐步成为准被动双

足机器人研究领域的重点方向, 现有的控制方法包括神经网络

[9]

、延时反馈控制

[10-11]

、能量

成型控制

[12-13]

、强化学习

[14]

等. 其中, 强化学习(Reinforcement learning, RL)因易于实现、适

应性好、无需先验知识等优点而得到广泛应用. Tedrake 等

[15]

利用随机策略梯度(Stochastic

policy gradient, SPG)算法实现无膝双足机器人 Toddler 的步态控制, 使其能够在不平整路面

上行走. Hitomi 等

[16]

则将 SPG 应用于一种圆足有膝双足机器人的控制中, 实现机器人在

[0.02, 0.04] rad 斜坡范围上的稳定行走, 并提升了机器人对外界扰动的鲁棒性. Ueno 等

[17]

采

用改进的行动者−评论家(Actor-critic, AC)算法提高了具有上肢双足机器人的步行稳定性, 使

机器人在 20 组实验中完成 19 次稳定行走. 然而, 上述算法均受 RL 的结构、学习能力的制

约, 存在样本利用率低、学习不稳定、算法不易收敛等缺陷, 严重限制了 RL 对机器人步态

的控制能力.

近年来, 结合强化学习和深度学习的深度强化学习(Deep reinforcement learning, DRL)

快速发展, 迅速成为人工智能领域的研究热点

[18]

. DRL 利用深度学习的优点克服传统 RL 中

的缺陷, 广泛应用于自动驾驶

[19-20]

、自然语言处理

[21-23]

等领域, 并被引入到双足机器人的步

态控制研究中. 在主动双足机器人中, 赵玉婷等

[24]

利用深度 Q 网络(Deep Q network,

DQN)

[25]

算法, 有效抑制了机器人在非平整地面行走时姿态角度的波动. 在准被动双足机器

人中, Kumar 等

[26]

将有膝双足机器人视为智能体, 利用深度确定性策略梯度(Deep

deterministic policy gradient, DDPG)

[27]

算法, 实现机器人长距离的行走. 此外, DRL 研究中也

常将双足机器人作为控制对象, 如 MuJoCo

[28-29]

中的 2Dwarker 模型、Roboschool

[30]

中的

Atlas 模型等.

由于准被动双足机器人步态稳定的判别较为困难, DRL 在控制准被动双足机器人时,

通常以行走的更远为目的, 忽略了机器人步行稳定性、柔顺性等因素, 这导致 DRL 控制下

机器人步态与稳定步态之间存在较大的差异. 针对此问题, 结合传统 RL 在准被动双足机器

人步态控制方面的不足, 本文提出了一种基于 DRL 的准被动双足机器人步态控制方法, 实

现较大斜坡范围([0.04, 0.15] rad)下的机器人不稳定步态控制, 使机器人能够抑制跌倒并快

速恢复至稳定步态, 达到提高机器人步行稳定性的目的: 1) 建立准被动双足机器人动力学

模型, 确立机器人的状态空间与动作空间. 2) 针对 DDPG 的不足, 基于优先经验回放

{θ+1=θ−2−2β3θ+2=θ−1+2β3{θ1+=θ2−−2β3θ2+=θ1−+2β3

(2)

其中, β3β3 为前向补偿角,“−”、“++”分别表示碰撞前瞬间和碰撞后瞬间. 由于碰撞前

后机器人关于碰撞点 cp 处角动量守恒, 碰撞后摆动腿关于髋关节 H 处角动量守恒, 可得到

碰撞阶段动力学方程:

Q−(q)q˙−=Q+(q)q˙+Q−(q)q˙−=Q+(q)q˙+

(3)

其中, Q−Q−与 Q+Q+可由碰撞前后角动量守恒推导得到. 联立式(1)~(3)完成机器人行走

过程的混合动力学模型建立.

1.2 状态空间与动作空间

当机器人作为智能体时, 其受控行走过程可用马尔科夫决策过程(Markov decision

processes, MDP)描述. 通常, MDP 可记为四元数组(S,A,(S,A,P,R)P,R). 其中, SS 为智能体状

态空间, AA 为智能体动作空间,PP 为状态转移函数, RR 为奖励函数. 本文中, 将机器人的状

态空间定义为 S=[x,ϕ]S=[x,ϕ], 其中, x=x=[θ1,θ1˙,θ2˙][θ1,θ1˙,θ2˙]为机器人起始状态, ϕϕ 为

斜坡坡度; 令机器人动作空间为 A=μswA=μsw, 在机器人摆动摆动阶段中 μswμsw 恒定, 可

有效防止摆动腿在行走中抖动, 保证步态的柔顺; 由于 μstμst 空间范围更为广泛但对本文所

选取的坡度范围下无明显的控制提升, 因此令 μst≡0μst≡0 即锁死踝关节, 以减少训练耗时

与控制能耗. 因此在第 t 步时, 机器人的行走过程可以描述为: 状态 stst 的机器人执行 DRL

选择的动作 atat, 根据 PP 迁移至状态 St+1St+1, 并通过 RR 得到奖励值 rt(st,at)rt(st,at).

为减少分析参数, 选取足地碰撞后瞬时时刻的机器人状态空间为庞加莱截面, 则机器

人状态的转换可利用庞加莱映射 ff 实现, 满足:

xt+1=f(xt)xt+1=f(xt)

(4)

若存在状态 xx, 满足 x=f(x)x=f(x), 称状态 xx 为不动点, 此时机器人步态即为稳定步

态. 结合 MDP 可知, 以步态稳定为目标时, DRL 需选择动作使机器人快速到达不动点, 以

获得更高的奖励值.

2. 深度确定性策略梯度算法

DDPG 是基于确定性策略梯度(Deterministic policy gradient, DPG)

[34]

改进的一种离线、

无模型 DRL 算法, 适用于连续动作空间问题. 采用 DDPG 控制机器人行走, 可以使机器人

获得更准确的控制, 加快步态的收敛速度. 进一步利用 PER 替代 DDPG 原有的样本抽取机

制, 可提高样本利用率, 改善 DDPG 的学习能力.

2.1 算法结构

在 DDPG 中, 分别使用策略神经网络 μμ 与价值神经网络 QQ 表示 DPG 与状态动作值

函数, 并组成 AC 算法. 其中, μμ 为 Actor, 当机器人状态为 stst 时, μμ 选择动作 atat 的过程

为:

剩余24页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3588
资源: 1万+

基于深度强化学习的双足机器人斜坡步态控制方法.docx

双足机器人之3D模拟.docx

基于变增益自抗扰技术的机器人轨迹跟踪控制方法.docx

面向离散地形的欠驱动双足机器人平衡控制方法.docx

机器人实训报告讲解.docx

基于PLC的关节型机器人控制系统设计剖析.docx

强化学习在双足机器人步态控制中的应用.pdf

仿生机器人运动步态控制：强化学习方法综述.pdf

仿生机器人运动步态控制：强化学习方法综述

基于步态切换的欠驱动双足机器人控制方法.pdf

行业分类-设备装置-基于非线性模型预测控制的双足机器人步态优化的信赖域SQP方法.zip

一种基于微信小程序和ROS的智能送餐机器人系统及其送餐方法.docx

基于立体视觉的水果采摘机器人系统调研报告资料.docx

基于人工智能技术的电网营销稽查虚拟网查机器人系统建设及实践.docx

基于红外传感器的机器人避障控制的研究.docx

仿人双足机器人机构的设计.docx

行业分类-设备装置-基于延迟反馈的双足机器人行走非单周期步态控制方法.zip

工业机器人PLC控制实例练习.docx

基于强化学习的机器人认知情感交互模型.docx

FANUC机器人密码的解除方法.docx

基于深度学习的机器人应用研究.docx

基于Android的智能聊天机器人的设计与实现.docx

基于学习字典的机器人图像稀疏表示方法.docx

基于遗传算法的机器人路径规划MATLAB源码.docx

基于事件相机的机器人感知与控制综述.docx

机器人大赛 大赛评审标准.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

最新资源

机器人大赛大赛评审标准.docx