没有合适的资源?快使用搜索试试~ 我知道了~
基于深度强化学习的双足机器人斜坡步态控制方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 196 浏览量
2023-02-23
20:19:34
上传
评论 1
收藏 2.84MB DOCX 举报
温馨提示
试读
25页
基于深度强化学习的双足机器人斜坡步态控制方法.docx
资源推荐
资源详情
资源评论
服务机器人融合了机械、控制、计算机、人工智能等众多学科, 在各个领域得到应用,
如足式机器人
[1]
、水下机器人
[2-4]
、无人船舶
[5]
、无人飞行器
[6]
等, 是目前全球范围内前沿高
科技技术研究最活跃的领域之一. 双足机器人是服务机器人中的一种仿人足式移动机器人,
能够适应街道、楼梯、废墟等复杂的地形环境, 可替代人类从事救援、医疗、勘探、服务
等行业. 在双足机器人中, 基于被动步行(Passive dynamic waking)
[7]
理论设计的被动双足机
器人, 因结构简单、步态柔顺、能耗低等优点受到广泛研究. 被动双足机器人可充分利用自
身动力学特性, 仅依靠重力与自身惯性便能沿斜坡向下行走. 然而, 被动双足机器人在行走
过程中因缺乏主动控制, 存在步行稳定性差、抗扰动能力弱等不足. 为弥补这些不足, 研究
人员通过对被动双足机器人部分关节施加控制, 研发出准被动双足机器人
[8]
, 提升了双足机
器人的步态控制能力.
为进一步提高准被动双足机器人步行稳定性, 步态控制方法的研究逐步成为准被动双
足机器人研究领域的重点方向, 现有的控制方法包括神经网络
[9]
、延时反馈控制
[10-11]
、能量
成型控制
[12-13]
、强化学习
[14]
等. 其中, 强化学习(Reinforcement learning, RL)因易于实现、适
应性好、无需先验知识等优点而得到广泛应用. Tedrake 等
[15]
利用随机策略梯度(Stochastic
policy gradient, SPG)算法实现无膝双足机器人 Toddler 的步态控制, 使其能够在不平整路面
上行走. Hitomi 等
[16]
则将 SPG 应用于一种圆足有膝双足机器人的控制中, 实现机器人在
[0.02, 0.04] rad 斜坡范围上的稳定行走, 并提升了机器人对外界扰动的鲁棒性. Ueno 等
[17]
采
用改进的行动者−评论家(Actor-critic, AC)算法提高了具有上肢双足机器人的步行稳定性, 使
机器人在 20 组实验中完成 19 次稳定行走. 然而, 上述算法均受 RL 的结构、学习能力的制
约, 存在样本利用率低、学习不稳定、算法不易收敛等缺陷, 严重限制了 RL 对机器人步态
的控制能力.
近年来, 结合强化学习和深度学习的深度强化学习(Deep reinforcement learning, DRL)
快速发展, 迅速成为人工智能领域的研究热点
[18]
. DRL 利用深度学习的优点克服传统 RL 中
的缺陷, 广泛应用于自动驾驶
[19-20]
、自然语言处理
[21-23]
等领域, 并被引入到双足机器人的步
态控制研究中. 在主动双足机器人中, 赵玉婷等
[24]
利用深度 Q 网络(Deep Q network,
DQN)
[25]
算法, 有效抑制了机器人在非平整地面行走时姿态角度的波动. 在准被动双足机器
人中, Kumar 等
[26]
将有膝双足机器人视为智能体, 利用深度确定性策略梯度(Deep
deterministic policy gradient, DDPG)
[27]
算法, 实现机器人长距离的行走. 此外, DRL 研究中也
常将双足机器人作为控制对象, 如 MuJoCo
[28-29]
中的 2Dwarker 模型、Roboschool
[30]
中的
Atlas 模型等.
由于准被动双足机器人步态稳定的判别较为困难, DRL 在控制准被动双足机器人时,
通常以行走的更远为目的, 忽略了机器人步行稳定性、柔顺性等因素, 这导致 DRL 控制下
机器人步态与稳定步态之间存在较大的差异. 针对此问题, 结合传统 RL 在准被动双足机器
人步态控制方面的不足, 本文提出了一种基于 DRL 的准被动双足机器人步态控制方法, 实
现较大斜坡范围([0.04, 0.15] rad)下的机器人不稳定步态控制, 使机器人能够抑制跌倒并快
速恢复至稳定步态, 达到提高机器人步行稳定性的目的: 1) 建立准被动双足机器人动力学
模型, 确立机器人的状态空间与动作空间. 2) 针对 DDPG 的不足, 基于优先经验回放
(Prioritized experience replay, PER)
[31]
机制, 引入分布式优先经验回放(Distributed prioritized
experience replay, DPER)
[32]
结构, 建立高效的机器人步态控制方法 — Ape-X DPG 算法. 3)
基于准被动双足机器人的行走特性设计的 Episode 过程, 结合机器人步态变化与缩放动作构
建的奖励函数, 为 Ape-X DPG 的高效学习提供支撑. 4) 通过仿真实验, 对 Ape-X DPG 的学
习能力和步态控制能力进行测试分析, 验证步态控制方法的有效性.
1. 双足机器人动力学模型
1.1 动力学模型建立
本文以直腿前向圆弧足机器人作为研究对象, 构建其动力学模型, 机器人物理模型如
图 1 所示. 机器人由连接在髋关节 H 处的两条完全一致的刚性直腿组成, 被动步行时具有
两个自由度, 分别位于支撑点 s 与髋关节 H 处, 记为 θ1θ1 与 θ2θ2. 为实施主动控制, 在机
器人髋关节与两腿的踝关节处设有电机. 对机器人行走过程做运动简化
[33]
, 可将行走过程划
分为摆动阶段和碰撞阶段, 机器人被动步行过程如图 2 所示.
图 1 机器人模型示意图
Fig. 1 Sketch of the biped model
下载: 全尺寸图片 幻灯片
图 2 被动步行过程
Fig. 2 Passive dynamic waking process
下载: 全尺寸图片 幻灯片
图 2 中, 状态 a 至状态 d 前为摆动阶段. 此阶段, 机器人支撑腿绕支撑点 s 做倒立摆运
动, 摆动腿离地并绕髋关节 H 做单摆运动, 运动中忽略摆动腿的擦地现象, 由 Lagrange 法
推导摆动阶段动力学方程:
M(q)q¨+H(q,q˙)=u(t)M(q)q¨+H(q,q˙)=u(t)
(1)
其中, qq 为姿态向量 [θ1,θ2][θ1,θ2];M(q)M(q) 为 2×22×2 正定质量惯性矩
阵; H(q,q˙)H(q,q˙)为重力、离心力和哥氏力之和; μ(t)=[μst,μsw]μ(t)=[μst,μsw] 为控制力矩集
合, μstμst、μswμsw 分别为支撑腿踝关节与摆动腿髋关节处的电机力矩, 当
μ(t)=[0,0]μ(t)=[0,0]时机器人处于被动步行状态.
状态 d 时刻, 机器人处于碰撞阶段. 此阶段, 机器人摆动腿在碰撞点 cp 处与地面发生
瞬时完全非弹性碰撞, 碰撞前后 θ1˙θ1˙、θ2˙θ2˙发生突变, 碰撞后, 支撑腿与摆动腿间角色
交换, 满足:
{θ+1=θ−2−2β3θ+2=θ−1+2β3{θ1+=θ2−−2β3θ2+=θ1−+2β3
(2)
其中, β3β3 为前向补偿角,“−”、“++”分别表示碰撞前瞬间和碰撞后瞬间. 由于碰撞前
后机器人关于碰撞点 cp 处角动量守恒, 碰撞后摆动腿关于髋关节 H 处角动量守恒, 可得到
碰撞阶段动力学方程:
Q−(q)q˙−=Q+(q)q˙+Q−(q)q˙−=Q+(q)q˙+
(3)
其中, Q−Q−与 Q+Q+可由碰撞前后角动量守恒推导得到. 联立式(1)~(3)完成机器人行走
过程的混合动力学模型建立.
1.2 状态空间与动作空间
当机器人作为智能体时, 其受控行走过程可用马尔科夫决策过程(Markov decision
processes, MDP)描述. 通常, MDP 可记为四元数组(S,A,(S,A,P,R)P,R). 其中, SS 为智能体状
态空间, AA 为智能体动作空间,PP 为状态转移函数, RR 为奖励函数. 本文中, 将机器人的状
态空间定义为 S=[x,ϕ]S=[x,ϕ], 其中, x=x=[θ1,θ1˙,θ2˙][θ1,θ1˙,θ2˙]为机器人起始状态, ϕϕ 为
斜坡坡度; 令机器人动作空间为 A=μswA=μsw, 在机器人摆动摆动阶段中 μswμsw 恒定, 可
有效防止摆动腿在行走中抖动, 保证步态的柔顺; 由于 μstμst 空间范围更为广泛但对本文所
选取的坡度范围下无明显的控制提升, 因此令 μst≡0μst≡0 即锁死踝关节, 以减少训练耗时
与控制能耗. 因此在第 t 步时, 机器人的行走过程可以描述为: 状态 stst 的机器人执行 DRL
选择的动作 atat, 根据 PP 迁移至状态 St+1St+1, 并通过 RR 得到奖励值 rt(st,at)rt(st,at).
为减少分析参数, 选取足地碰撞后瞬时时刻的机器人状态空间为庞加莱截面, 则机器
人状态的转换可利用庞加莱映射 ff 实现, 满足:
xt+1=f(xt)xt+1=f(xt)
(4)
若存在状态 xx, 满足 x=f(x)x=f(x), 称状态 xx 为不动点, 此时机器人步态即为稳定步
态. 结合 MDP 可知, 以步态稳定为目标时, DRL 需选择动作使机器人快速到达不动点, 以
获得更高的奖励值.
2. 深度确定性策略梯度算法
DDPG 是基于确定性策略梯度(Deterministic policy gradient, DPG)
[34]
改进的一种离线、
无模型 DRL 算法, 适用于连续动作空间问题. 采用 DDPG 控制机器人行走, 可以使机器人
获得更准确的控制, 加快步态的收敛速度. 进一步利用 PER 替代 DDPG 原有的样本抽取机
制, 可提高样本利用率, 改善 DDPG 的学习能力.
2.1 算法结构
在 DDPG 中, 分别使用策略神经网络 μμ 与价值神经网络 QQ 表示 DPG 与状态动作值
函数, 并组成 AC 算法. 其中, μμ 为 Actor, 当机器人状态为 stst 时, μμ 选择动作 atat 的过程
为:
at=μ(st|θμ)+Ntat=μ(st|θμ)+Nt
(5)
其中, θμθμ 为 μμ 的神经网络参数; NtNt 为动作扰动, 由扰动函数 NN 提供, 用以在学
习过程中探索环境. 机器人在执行动作 atat 后, 结合返回的 st+1st+1 与 rtrt, 将其结合 stst
与 atat 组成样本 [st,at,rt,st+1][st,at,rt,st+1] 存入样本池. 价值网络 QQ 作为 Critic, 用以逼近
状态动作值函数:
q=Q(st,at|θQ)q=Q(st,at|θQ)
(6)
其中, θQθQ 为 QQ 的神经网络参数.
为稳定学习过程, DDPG 借鉴 DQN 中的目标网络结构, 构建目标策略网络 μ′μ′与目标
价值网络 Q′Q′, 并在目标网络中引入缓慢更新策略:
{θQ′=τθQ+(1−τ)θQ′θμ′=τθμ+(1−τ)θμ′{θQ′=τθQ+(1−τ)θQ′θμ′=τθμ+(1−τ)θμ′
(7)
其中, θQ′θQ′、θμ′θμ′分别为 Q′Q′、μ′μ′ 的神经网络参数; ττ 控制着 θQ′θQ′、θμ′θμ′的更
新幅度, 通常取 τ<<1τ<<1. 对于策略网络 μμ 与价值网络 QQ, 则使用经验回放(Experience
replay, ER)机制从样本池中随机抽取训练样本集进行离线训练. 结合目标网络 μ′μ′和 Q′Q′,
对于训练样本集 II, QQ 的损失函数和 μμ 的梯度更新分别为:
L(θQ)=1I∑iI(ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)−Q(si,ai|θQ))2L(θQ)=1I∑iI(ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)−Q(si,ai|θQ))2
(8)
∇θμJ≈1I∑iI∇aiQ(si,ai|θQ)∇θμμ(si|θμ)∇θμJ≈1I∑iI∇aiQ(si,ai|θQ)∇θμμ(si|θμ)
(9)
式中, γγ 为奖励折扣; Q′Q′ 与 μ′μ′ 通过降低 QQ 的变化幅度, 抑制训练中 QQ 和 μμ 的
网络震荡, 达到稳定算法学习过程的目的, DDPG 中的神经网络训练过程如图 3 所示.
剩余24页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3588
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- python开心麻花影视作品分析程序+源码.zip
- pythonExcel数据分析师程序+源码.zip
- PlatformUI.jar 支持RCP控件环境插件
- 基于BP神经网络的回归分析,基于优化动量因子的BP神经网络,基于优化学习率的BP神经网络,基于优化隐藏层神经元的bp神经网络
- python读取excel数据Python-file-reading-master.zip
- STC15单片机串口2使用程序例子
- 读取日志的excel生成周报 用python3开发weekplan-master.zip
- python 读取excel数据导入dbimport-data-master.zip
- K折交叉验证BP神经网络,多输入多输出BP神经网络(代码完整,数据齐全)
- B07训练原图.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功