一种基于Off-Policy的无模型输出数据反馈H∞控制方法.docx资源-CSDN文库

版权申诉

176 浏览量 2023-02-23 20:18:35 上传评论收藏 438KB DOCX 举报

资源推荐

资源详情

资源评论

鲁棒控制理论经过多年的完善与发展, 已经趋于成熟. 所谓的鲁棒控制是指在扰动能

量一定的情况下, 仍能保证一定性能指标的控制方法. H∞H∞ 控制算法是鲁棒控制的一种,

通过最小化 H∞H∞指标来达到鲁棒控制的目的

[1-3]

. 文献[4-5]中指出 H∞H∞控制和零和博弈

存在内在联系. 即把输入和扰动看作相互博弈的两个参与者, 一般在定义指标时使输入为指

标的最小参与者, 扰动为最大参与者. 对于系统的 H∞H∞ 控制可以归结为求解博弈黎卡提

方程(Game algebraic Riccati equation, GARE)

[5-6]

. H∞H∞控制虽然能保证参数在一定波动范围

内的稳定性, 但需要完整的系统动态模型. 这大大限制了 H∞H∞的应用范围.

随着信息科学技术的发展, 与生活息息相关的实际过程, 如冶金、化工、电力、物流

运输等方面发生了重大变化, 复杂的生产设备与大量不同种类的传感器同时应用使工业过

程趋于复杂. 因此, 这些过程在难以建立准确的数学模型的同时却产生储存着大量反映系统

动态的运行数据. 数据驱动的控制方法在此基础上产生. 经过多年的发展, 数据驱动的方法

主要利用这些数据实现设计控制器, 预测评估系统状态, 在线优化决策, 甚至诊断故障

[7]

而数据驱动控制是指在不使用被控过程数学模型的信息的情况下, 直接利用被控系统的数

据设计控制器的控制理论和方法, 且经过严谨地数学论证后可以保证控制器满足一定的鲁

棒性与收敛性

[8]

强化学习通过启发机制来学习智能体与环境的交互策略, 以优化在交互过程中的长期

收益的算法

[6]

. 在控制领域中, 强化学习常用来解决自适应最优控制问题

[9-12]

. 其中, Doya

[13]

首次将基于强化学习的控制器应用于连续系统中. 在近期的研究中, 强化学习应用于更加有

针对性的复杂工业过程中

[14-19]

, 尤其是对难以建模的复杂工业过程进行了针对性的研究

[15-17]

文献[12]对数据驱动的迭代优化控制方法进行了综述性研究. 文献[14]将 Q-learning 应用于

考虑丢包问题的网络环境中, 实现了一种数据驱动的浮选过程控制方法. 文献[15]考虑了输

入受限情况下的数据驱动浮选控制问题, 并将强化学习应用在浮选过程的双率控制中. 文献

[20]针对非线性系统跟踪控制问题, 提出了一种基于 Q-learning 的直接求解评价函数的方法,

避免了求解更复杂的 HJBE (Hamilton-Jacobi-Bellman equation). 文献[21]针对输出调节控制

问题提出了一种新型基于 Q-learning 的控制方法. 文献[22]针对离散时间非线性系统基于事

件的最优调节控制问题, 提出了一种基于启发式动态规划的事件驱动方法. 文献[23]对非线

性连续时间系统自适应评价控制问题进行了综述性研究. Al-Tamimi 等

[24]

将 Q-learning 算法

应用于 H∞H∞控制问题.

Off-policy 学习算法是强化学习的一种, 其主要特点是在学习过程中, Off-policy 算法定

义了两个不同的策略, 一种是用来产生数据的策略, 另一种是求解得到的目标策略

[25-27]

. 而

On-policy 算法中, 两种策略相同, 需要将每次迭代所求得的算法代入实际环境中来产生学

习所用的数据. 因此, 与 On-policy 算法相比, Off-policy 算法更具可用性. 同时与以 Q-

learning 算法

[24]

为代表的 On-policy 学习方法相比, Off-policy 算法可以消除在学习过程中由

探测噪声所产生的误差

[25]

. 换句话说, Off-policy 学习算法是一种无偏的学习方法. 在基于

Off-policy 算法的连续系统 H∞H∞控制的基础上, 文献[25]将 Off-policy 算法引入了离散线

性系统 H∞H∞控制问题中, 提出了需要状态反馈值的离散线性系统控制算法. 其通过考察

状态变化与值函数变化的关系, 构造了一种与探测噪声无关的贝尔曼方程, 进而提出了一种

无模型状态反馈 Off-policy 的 H∞H∞ 控制算法.

上述算法由于忽略了在某些应用条件下关键状态变量无法反馈这一问题, 降低了算法

在实际应用环境下的可用范围. 因此, 本文提出一种基于 Off-policy 的数据驱动输出反馈

H∞H∞控制算法, 针对模型未知的离散线性系统模型, 实现无限时域上工作点附近镇定控制

的同时对能量有限的噪声进行抑制. 区别与状态反馈问题, 本文的反馈量是输出, 本文通过

构造了新的值函数, 避免了直接使用状态变量. 由于无法直接使用状态作为反馈, 因而构造

了一种增广数据向量, 来解决输出反馈控制问题. 在线性模型依赖在线策略迭代(Policy

iteration, PI)状态反馈算法的基础上, 将结合了系统历史输出数据与历史输入数据的增广数

据向量作为反馈量, 使在线状态反馈算法转换为模型依赖在线策略迭代输入输出反馈算法.

通过引入辅助项的方法将模型依赖 On-policy 输入输出反馈算法转换为无模型 Off-policy 输

入输出反馈控制算法. 由于采用了 Off-policy 算法, 该算法具有结构简单, 可以得到理论上

的最优值的特点

[25]

. 除此之外, 与 On-policy 算法相比, Off-policy 算法的可以实现离线学习,

克服了 On-policy 算法只能在线学习需要频繁和环境交互的问题. 在本文的最后, 针对飞机

短时间周期飞行姿态控制模型进行了仿真实验, 以验证算法的有效性.

1. 研究背景

1.1 问题描述

对于线性离散系统

xk+1yk=Axk+Buk+Dwk=Cxkxk+1=Axk+Buk+Dwkyk=Cxk

(1)

其中, A∈Rn×nA∈Rn×n, B∈Rn×mB∈Rn×m, C∈Rl×nC∈Rl×n, D∈Rn×rD∈Rn×r 是离散线

性系统动态矩阵. xk∈Rnxk∈Rn 是系统状态数据; uk∈Rmuk∈Rm 为控制输入; wk∈Rrwk∈

Rr 为扰动输入; yk∈Rlyk∈Rl 为系统输出.

定义 H∞H∞控制问题的优化指标如下:

r(yk,uk,wk)=yTkQyk+uTkRuk−γ2wTkwkr(yk,uk,wk)=ykTQyk+ukTRuk−γ2wkTwk

(2)

其中, QQ 和 RR 为预设的正定矩阵, γγ 为某一预设正值. 该指标具有实际意义: 项

yTkQykykTQyk 表示了系统在噪声作用下输出波动的大小; 项 uTkRukukTRuk 为考虑到实际

物理条件时, 对输入幅值的限制; 项 γ2wTkwkγ2wkTwk 则是噪声相关的修正项, 保证解的

存在性. 自然地, 将损失指标在时域上的累积作为待优化指标. 损失与输出、扰动噪声和控

制策略相关, 可表示为

J(yk,uk,wk)=∑i=k∞r(yk,uk,wk)=∑i=k∞[yTkQyk+uTkRuk−γ2wTkwk]J(yk,uk,wk)=∑i=k∞r(yk,uk,wk)=∑i=k∞[ykTQyk+ukTRuk−γ2wkTwk]

(3)

定义最优运行优化策略为 u∗kuk∗, 最优运行优化策略为使指标最小的优化策略. 指标

与扰动 wkwk 同样存在相关关系, 而 wkwk 是不可控的. 考虑到扰动对指标的影响, 选择一

种保守的优化策略, 即使最坏情况下的指标最小. 最坏情况下的扰动与扰动对系统的影响和

预设值 RR, QQ, γγ 的选取有关. 综上所述, 可以将最优控制策略表示为

u∗k=argminukmaxwkJuk∗=arg⁡minukmaxwkJ

(4)

将寻求最优控制率的问题考虑为两玩家零和博弈的问题

[6]

, 其中, ukuk 作为寻找最优控

制策略的玩家 1, 而 wkwk 作为寻找最坏扰动策略的玩家 2. 本文采用一种线性的决策方法,

即通过一组线性关系来描述最优控制策略和最坏扰动策略. 策略所产生的结果和由历史数

据所组成的增广向量有关. 增广向量的表达式将在之后给出. 其可以定义为

uk=−K∗1zkwk=−K∗2zkuk=−K1∗zkwk=−K2∗zk

(5)

其中, zkzk 代表在第 kk 步时系统的增广向量值, 等式中的下标 kk 表示系统运行的第

kk 步. K∗1K1∗和 K∗2K2∗分别代表由线性反馈策略所描述的最优控制策略和最坏扰动策略.

1.2 博弈黎卡提方程

根据动态规划中的最优性原理, 定义值函数为

V(xk,uk,wk)=∑i=k∞[yTiQyi+uTiRui−γ2wTiwi]V(xk,uk,wk)=∑i=k∞[yiTQyi+uiTRui−γ2wiTwi]

(6)

由于值函数中突出系统的预测性和评价性, 即可以根据当前的状态推测之后的待优化

指标累积值. 而系统的输出无法完全反映系统的状态, 所以这里将值函数描述为和系统状态

相关的形式, 而非和系统输出相关的形式. 由最优控制策略 u∗kuk∗和最坏扰动策略 w∗kwk∗

所得到的值函数可以称为目标值函数, 用 V∗V∗表示为

V∗(xk,u∗k,w∗k)=∑i=k∞[yTiQyi+u∗TiRu∗i−γ2wT∗iw∗i]V∗(xk,uk∗,wk∗)=∑i=k∞[yiTQyi+ui∗TRui∗−γ2wiT∗wi∗]

(7)

为保证最优策略的存在, 需要对系统进行一些一般性地假设

[1-2]

, 如下:

1) 系统扰动能量有限, 即

∑i=0∞wTiwi<∞∑i=0∞wiTwi<∞

(8)

2) 系统存在小于等于 γγ 的 L2L2 增益, 即

∑i=0∞[yTiQyi+uTiRui]≤γ2∑i=0∞wTiwi∑i=0∞[yiTQyi+uiTRui]≤γ2∑i=0∞wiTwi

(9)

3) 系统满足条件

maxwkminukV(xk,uk,wk)=minukmaxwkV(xk,uk,wk)maxwkminukV(xk,uk,wk)=minukmaxwkV(xk,uk,wk)

(10)

4) 系统可观.

如果确保了上述条件且最优策略为线性控制策略, 则值函数可以描述为关于 xkxk 的二

次型的形式. 其说明在引入线性控制策略表示后给出.

V∗(xk)=xTkPxkV∗(xk)=xkTPxk

(11)

将式 (11) 代入式 (7) 中, 可以得到贝尔曼方程

xTkPxk=xTkQ¯xk+uTkRuk−γ2wTw+xTk+1Pxk+1xkTPxk=xkTQ¯xk+ukTRuk−γ2wTw+xk+1TPxk+1

(12)

其中, Q¯=CTQCQ¯=CTQC, 保证了输入反馈算法和输出反馈算法值函数一致.

定义哈密顿方程

H(xk,uk,wk)=xTkQ¯xk+uTkRuk−γ2wTw+xTk+1Pxk+1−xTkPxkH(xk,uk,wk)=xkTQ¯xk+ukTRuk−γ2wTw+xk+1TPxk+1−xkTPxk

(13)

剩余13页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3654
资源: 1万+

一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx

最新资源

一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx

基于TCP-IP网络模型的计算机网络教学实验设计研究.docx

计算机组成原理实验报告3-数据输出实验 移位门实验.docx

永磁偏置磁轴承的H∞混合灵敏度控制研究.docx

基于SpringCloud-微服务系统设计解决方案.docx.docx

基于PC104总线构架的数据采集与控制系统.docx

CPLDFPGA课程设计-基于Verilog-HDL的彩灯控制器.docx

一种基于spring boot插件的数据同步方法和系统.docx

基于S7-300三种液体自动混合控制系统设计PLC课程设计.doc.docx

一种大数据环境下的数据质量监控方法.docx

本科毕业设计---基于单片机的spwm控制系统设计.docx

基于S7-200 PLC 十字路口交通灯的控制系统设计.docx

一种基于改进YOLO v3的古文字及字体识别方法.docx

基于S7-200PLC液体混合装置控制的模拟.docx

一种基于小程序的考研报考信息查询系统及方法.docx

一种基于Vue.js和Django的权限控制方法及系统.docx

一种基于微信小程序平台登录的实现方法.docx

一种基于协同过滤推荐算法-K最近邻分类算法的App推荐方法.docx

4种SEM常用的数据分析方法-精选.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于小波与卷积神经网络的多尺度时间序列分类.zip

学术海报模板+论文科研+研究生

最新资源

计算机组成原理实验报告3-数据输出实验移位门实验.docx

李飞飞自传我看见的世界 The World I see