没有合适的资源?快使用搜索试试~ 我知道了~
一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 176 浏览量
2023-02-23
20:18:35
上传
评论
收藏 438KB DOCX 举报
温馨提示
试读
14页
一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx
资源推荐
资源详情
资源评论
鲁棒控制理论经过多年的完善与发展, 已经趋于成熟. 所谓的鲁棒控制是指在扰动能
量一定的情况下, 仍能保证一定性能指标的控制方法. H∞H∞ 控制算法是鲁棒控制的一种,
通过最小化 H∞H∞指标来达到鲁棒控制的目的
[1-3]
. 文献[4-5]中指出 H∞H∞控制和零和博弈
存在内在联系. 即把输入和扰动看作相互博弈的两个参与者, 一般在定义指标时使输入为指
标的最小参与者, 扰动为最大参与者. 对于系统的 H∞H∞ 控制可以归结为求解博弈黎卡提
方程(Game algebraic Riccati equation, GARE)
[5-6]
. H∞H∞控制虽然能保证参数在一定波动范围
内的稳定性, 但需要完整的系统动态模型. 这大大限制了 H∞H∞的应用范围.
随着信息科学技术的发展, 与生活息息相关的实际过程, 如冶金、化工、电力、物流
运输等方面发生了重大变化, 复杂的生产设备与大量不同种类的传感器同时应用使工业过
程趋于复杂. 因此, 这些过程在难以建立准确的数学模型的同时却产生储存着大量反映系统
动态的运行数据. 数据驱动的控制方法在此基础上产生. 经过多年的发展, 数据驱动的方法
主要利用这些数据实现设计控制器, 预测评估系统状态, 在线优化决策, 甚至诊断故障
[7]
.
而数据驱动控制是指在不使用被控过程数学模型的信息的情况下, 直接利用被控系统的数
据设计控制器的控制理论和方法, 且经过严谨地数学论证后可以保证控制器满足一定的鲁
棒性与收敛性
[8]
.
强化学习通过启发机制来学习智能体与环境的交互策略, 以优化在交互过程中的长期
收益的算法
[6]
. 在控制领域中, 强化学习常用来解决自适应最优控制问题
[9-12]
. 其中, Doya
[13]
首次将基于强化学习的控制器应用于连续系统中. 在近期的研究中, 强化学习应用于更加有
针对性的复杂工业过程中
[14-19]
, 尤其是对难以建模的复杂工业过程进行了针对性的研究
[15-17]
.
文献[12]对数据驱动的迭代优化控制方法进行了综述性研究. 文献[14]将 Q-learning 应用于
考虑丢包问题的网络环境中, 实现了一种数据驱动的浮选过程控制方法. 文献[15]考虑了输
入受限情况下的数据驱动浮选控制问题, 并将强化学习应用在浮选过程的双率控制中. 文献
[20]针对非线性系统跟踪控制问题, 提出了一种基于 Q-learning 的直接求解评价函数的方法,
避免了求解更复杂的 HJBE (Hamilton-Jacobi-Bellman equation). 文献[21]针对输出调节控制
问题提出了一种新型基于 Q-learning 的控制方法. 文献[22]针对离散时间非线性系统基于事
件的最优调节控制问题, 提出了一种基于启发式动态规划的事件驱动方法. 文献[23]对非线
性连续时间系统自适应评价控制问题进行了综述性研究. Al-Tamimi 等
[24]
将 Q-learning 算法
应用于 H∞H∞控制问题.
Off-policy 学习算法是强化学习的一种, 其主要特点是在学习过程中, Off-policy 算法定
义了两个不同的策略, 一种是用来产生数据的策略, 另一种是求解得到的目标策略
[25-27]
. 而
On-policy 算法中, 两种策略相同, 需要将每次迭代所求得的算法代入实际环境中来产生学
习所用的数据. 因此, 与 On-policy 算法相比, Off-policy 算法更具可用性. 同时与以 Q-
learning 算法
[24]
为代表的 On-policy 学习方法相比, Off-policy 算法可以消除在学习过程中由
探测噪声所产生的误差
[25]
. 换句话说, Off-policy 学习算法是一种无偏的学习方法. 在基于
Off-policy 算法的连续系统 H∞H∞控制的基础上, 文献[25]将 Off-policy 算法引入了离散线
性系统 H∞H∞控制问题中, 提出了需要状态反馈值的离散线性系统控制算法. 其通过考察
状态变化与值函数变化的关系, 构造了一种与探测噪声无关的贝尔曼方程, 进而提出了一种
无模型状态反馈 Off-policy 的 H∞H∞ 控制算法.
上述算法由于忽略了在某些应用条件下关键状态变量无法反馈这一问题, 降低了算法
在实际应用环境下的可用范围. 因此, 本文提出一种基于 Off-policy 的数据驱动输出反馈
H∞H∞控制算法, 针对模型未知的离散线性系统模型, 实现无限时域上工作点附近镇定控制
的同时对能量有限的噪声进行抑制. 区别与状态反馈问题, 本文的反馈量是输出, 本文通过
构造了新的值函数, 避免了直接使用状态变量. 由于无法直接使用状态作为反馈, 因而构造
了一种增广数据向量, 来解决输出反馈控制问题. 在线性模型依赖在线策略迭代(Policy
iteration, PI)状态反馈算法的基础上, 将结合了系统历史输出数据与历史输入数据的增广数
据向量作为反馈量, 使在线状态反馈算法转换为模型依赖在线策略迭代输入输出反馈算法.
通过引入辅助项的方法将模型依赖 On-policy 输入输出反馈算法转换为无模型 Off-policy 输
入输出反馈控制算法. 由于采用了 Off-policy 算法, 该算法具有结构简单, 可以得到理论上
的最优值的特点
[25]
. 除此之外, 与 On-policy 算法相比, Off-policy 算法的可以实现离线学习,
克服了 On-policy 算法只能在线学习需要频繁和环境交互的问题. 在本文的最后, 针对飞机
短时间周期飞行姿态控制模型进行了仿真实验, 以验证算法的有效性.
1. 研究背景
1.1 问题描述
对于线性离散系统
xk+1yk=Axk+Buk+Dwk=Cxkxk+1=Axk+Buk+Dwkyk=Cxk
(1)
其中, A∈Rn×nA∈Rn×n, B∈Rn×mB∈Rn×m, C∈Rl×nC∈Rl×n, D∈Rn×rD∈Rn×r 是离散线
性系统动态矩阵. xk∈Rnxk∈Rn 是系统状态数据; uk∈Rmuk∈Rm 为控制输入; wk∈Rrwk∈
Rr 为扰动输入; yk∈Rlyk∈Rl 为系统输出.
定义 H∞H∞控制问题的优化指标如下:
r(yk,uk,wk)=yTkQyk+uTkRuk−γ2wTkwkr(yk,uk,wk)=ykTQyk+ukTRuk−γ2wkTwk
(2)
其中, QQ 和 RR 为预设的正定矩阵, γγ 为某一预设正值. 该指标具有实际意义: 项
yTkQykykTQyk 表示了系统在噪声作用下输出波动的大小; 项 uTkRukukTRuk 为考虑到实际
物理条件时, 对输入幅值的限制; 项 γ2wTkwkγ2wkTwk 则是噪声相关的修正项, 保证解的
存在性. 自然地, 将损失指标在时域上的累积作为待优化指标. 损失与输出、扰动噪声和控
制策略相关, 可表示为
J(yk,uk,wk)=∑i=k∞r(yk,uk,wk)=∑i=k∞[yTkQyk+uTkRuk−γ2wTkwk]J(yk,uk,wk)=∑i=k∞r(yk,uk,wk)=∑i=k∞[ykTQyk+ukTRuk−γ2wkTwk]
(3)
定义最优运行优化策略为 u∗kuk∗, 最优运行优化策略为使指标最小的优化策略. 指标
与扰动 wkwk 同样存在相关关系, 而 wkwk 是不可控的. 考虑到扰动对指标的影响, 选择一
种保守的优化策略, 即使最坏情况下的指标最小. 最坏情况下的扰动与扰动对系统的影响和
预设值 RR, QQ, γγ 的选取有关. 综上所述, 可以将最优控制策略表示为
u∗k=argminukmaxwkJuk∗=argminukmaxwkJ
(4)
将寻求最优控制率的问题考虑为两玩家零和博弈的问题
[6]
, 其中, ukuk 作为寻找最优控
制策略的玩家 1, 而 wkwk 作为寻找最坏扰动策略的玩家 2. 本文采用一种线性的决策方法,
即通过一组线性关系来描述最优控制策略和最坏扰动策略. 策略所产生的结果和由历史数
据所组成的增广向量有关. 增广向量的表达式将在之后给出. 其可以定义为
uk=−K∗1zkwk=−K∗2zkuk=−K1∗zkwk=−K2∗zk
(5)
其中, zkzk 代表在第 kk 步时系统的增广向量值, 等式中的下标 kk 表示系统运行的第
kk 步. K∗1K1∗和 K∗2K2∗分别代表由线性反馈策略所描述的最优控制策略和最坏扰动策略.
1.2 博弈黎卡提方程
根据动态规划中的最优性原理, 定义值函数为
V(xk,uk,wk)=∑i=k∞[yTiQyi+uTiRui−γ2wTiwi]V(xk,uk,wk)=∑i=k∞[yiTQyi+uiTRui−γ2wiTwi]
(6)
由于值函数中突出系统的预测性和评价性, 即可以根据当前的状态推测之后的待优化
指标累积值. 而系统的输出无法完全反映系统的状态, 所以这里将值函数描述为和系统状态
相关的形式, 而非和系统输出相关的形式. 由最优控制策略 u∗kuk∗和最坏扰动策略 w∗kwk∗
所得到的值函数可以称为目标值函数, 用 V∗V∗表示为
V∗(xk,u∗k,w∗k)=∑i=k∞[yTiQyi+u∗TiRu∗i−γ2wT∗iw∗i]V∗(xk,uk∗,wk∗)=∑i=k∞[yiTQyi+ui∗TRui∗−γ2wiT∗wi∗]
(7)
为保证最优策略的存在, 需要对系统进行一些一般性地假设
[1-2]
, 如下:
1) 系统扰动能量有限, 即
∑i=0∞wTiwi<∞∑i=0∞wiTwi<∞
(8)
2) 系统存在小于等于 γγ 的 L2L2 增益, 即
∑i=0∞[yTiQyi+uTiRui]≤γ2∑i=0∞wTiwi∑i=0∞[yiTQyi+uiTRui]≤γ2∑i=0∞wiTwi
(9)
3) 系统满足条件
maxwkminukV(xk,uk,wk)=minukmaxwkV(xk,uk,wk)maxwkminukV(xk,uk,wk)=minukmaxwkV(xk,uk,wk)
(10)
4) 系统可观.
如果确保了上述条件且最优策略为线性控制策略, 则值函数可以描述为关于 xkxk 的二
次型的形式. 其说明在引入线性控制策略表示后给出.
V∗(xk)=xTkPxkV∗(xk)=xkTPxk
(11)
将式 (11) 代入式 (7) 中, 可以得到贝尔曼方程
xTkPxk=xTkQ¯xk+uTkRuk−γ2wTw+xTk+1Pxk+1xkTPxk=xkTQ¯xk+ukTRuk−γ2wTw+xk+1TPxk+1
(12)
其中, Q¯=CTQCQ¯=CTQC, 保证了输入反馈算法和输出反馈算法值函数一致.
定义哈密顿方程
H(xk,uk,wk)=xTkQ¯xk+uTkRuk−γ2wTw+xTk+1Pxk+1−xTkPxkH(xk,uk,wk)=xkTQ¯xk+ukTRuk−γ2wTw+xk+1TPxk+1−xkTPxk
(13)
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3654
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 本科毕业设计基于C# wpf人脸识别的考勤系统的设计与实现源码.zip
- 基于Ruoyi+uniapp实现学生考勤系统 学生考勤源码+项目说明.zip
- feae6bc968ca68a099455d8b8a8dea35
- 基于Pytorch训练CIRAR10上分类算法.zip
- Pytorch-pytorch深度学习教程之Tensorboard.zip
- 基于C++和Python开发yolov8-face作为人脸检测器dlib作为人脸识别器的人脸考勤系统源码+项目说明.zip
- Pytorch-pytorch深度学习教程之变分自动编码器.zip
- Pytorch-pytorch深度学习教程之神经风格迁移.zip
- Pytorch-pytorch深度学习教程之深度残差网络.zip
- Pytorch-pytorch深度学习教程之循环神经网络.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功