基于策略迭代的连续时间系统的随机线性二次最优控制

87 浏览量 2021-01-14 06:43:00 上传评论 2 收藏 180KB PDF 举报

资源推荐

资源详情

资源评论

第 30 卷第 9 期

Vol. 30 No. 9

控制与决策

Control and Decision

2015 年 9 月

Sep. 2015

基于策略迭代的连续时间系统的随机线性二次最优控制

文章编号: 1001-0920 (2015) 09-1674-05 DOI: 10.13195/j.kzyjc.2014.0856

王涛

1,2

, 张化光

(1. 东北大学信息科学与工程学院，沈阳 110004；2. 沈阳师范大学计算机与数学基础教学部，沈阳 110034)

摘要: 针对模型参数部分未知的随机线性连续时间系统, 通过策略迭代算法求解无限时间随机线性二次 (LQ) 最优

控制问题. 求解随机 LQ 最优控制问题等价于求随机代数 Riccati 方程 (SARE) 的解. 首先利用伊藤公式将随机微分方

程转化为确定性方程, 通过策略迭代算法给出 SARE 的解序列; 然后证明 SARE 的解序列收敛到 SARE 的解, 而且在

迭代过程中系统是均方可镇定的; 最后通过仿真例子表明策略迭代算法的可行性.

关键词: 随机代数 Riccati 方程；随机微分方程；策略迭代；最优控制

中图分类号: TP273+.1 文献标志码: A

Stochastic linear quadratic optimal control for continuous-time systems

based on policy iteration

WANG Tao

1,2

, ZHANG Hua-guang

(1. College of Information Science and Engineering，Northeastern University，Shenyang 110004，China；2. Department

of Computer and Mathematics Teaching，Shenyang Normal University，Shenyang 110034，China．Correspondent:

WANG Tao，E-mail：wtnuhai@163.com)

Abstract: The stochastic linear quadratic(LQ) optimal control problem is solved for stochastic linear continuous-time

systems with the partly unknown parameter by using the policy iteration approach. The feasibility of the stochastic LQ

optimal control problem is equivalent to the solvability of the stochastic algebra Riccati equation(SARE). Firstly, the

stochastic differential equation is converted into the deterministic equation by using It

o formula, and the solution sequence of

SARE is obtained by using the policy iteration approach. Then, convergence analysis is presented to prove that the solution

sequence of SARE reaches the solution of SARE, and the proof of mean square stability of the systems in the process of

iteration is also given. Finally, a simulation example is given to illustrate the feasibility of the policy iteration approach.

Keywords: stochastic algebra Riccati equation；stochastic differential equation；policy iteration；optimal control

0 引引引言言言

确定性系统的线性二次 (LQ) 最优控制问题由

Kalman

[1]

首次提出, 随后得到了迅速发展

[2-4]

. 文献

[5] 采用策略迭代算法估计模型参数部分未知的连续

时间系统的最优控制; 文献 [6] 针对模型参数完全未

知的连续时间系统, 通过在线策略迭代算法求得无限

时间 LQ 最优控制; 文献 [7] 通过一个新型的递归神经

网络辨识器和单网络求解模型参数完全未知的非线

性连续时间系统的近似最优控制.

随机 LQ 最优控制问题由 Wonham

[8]

开创. 文献

[9] 给出了一般化 Riccati方程 (GRE), 同时证明了有限

时间随机 LQ 最优控制问题的可解性等价于 GRE 的

可解性. 文献 [10] 通过迭代算法求解有限时间随机

LQ 最优控制问题, 并给出了最优控制可解性的充分

条件. 文献 [11] 采用迭代算法研究了连续型随机系统

的变结构控制律. 文献 [12] 讨论了无限时间随机 LQ

最优控制, 给出了随机代数 Riccati 方程 (SARE), 通过

线性矩阵不等式求解 SARE. 文献 [13] 利用拉格朗日

乘子定理给出了带有约束条件的有限时间随机 LQ 最

优控制存在的充要条件. 文献 [14] 通过克罗内克代数

和 𝐻- 表示技术讨论了非线性时滞随机系统的稳定

性.

本文通过策略迭代算法求解模型参数部分未知

的随机 LQ 最优控制问题. 在迭代过程中构造 SARE

收稿日期: 2014-05-30 ；修回日期: 2014-12-17.

基金项目: 国家自然科学基金项目(61034005)；国家 863 计划项目(2012AA040104)；辽宁省自然科学基金项目

(201202201).

作者简介: 王涛(1979−), 男, 讲师, 博士生, 从事近似动态规划最优控制、神经网络控制的研究；张化光(1959−), 男, 教

授, 博士生导师, 从事智能自适应控制、非线性递归神经网络的稳定性分析等研究.

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

weixin_38682254

粉丝: 7
资源: 938

基于策略迭代的连续时间系统的随机线性二次最优控制

基于策略迭代的连续时间系统的随机线性二次最优控制_王涛.pdf

基于遗传算法的LQR控制器优化设计

基于改进粒子群算法的多目标最优潮流计算.pdf

【优化控制】基于遗传算法实现优化LQR控制器含Matlab源码

matlab_Implementations of the iLQR algorithm.zip

matlab算法解析实现 - 基于遗传算法的LQR控制器优化设计.rar

基于层次粒子群算法的非线性双层划规研究.pdf

基于GA遗传优化算法的LQR控制器最优参数的仿真-源码

第1.0讲-概述1

基于遗传算法的LQR控制器的优化设计

最优控制大作业（强化学习）

基于matlab与遗传优化算法的LQR控制器优化系统设计与实现

Git如何持续迭代

随机滤波与最优估计作业

伊藤随机时变系统的有限时间稳定性和稳定性

matlab开发-多输入多输出多系统的模型预测控制

基于遗传算法的机器人关节空间最优运动规划

matlab开发-基于模型的策略迭代gorithmfordeterministiccleaningrobot

基于遗传算法的LQR控制器优化设计,LQR控制算法,matlab

MATLAB智能算法案例：5 基于遗传算法的LQR控制器优化设计.zip

迭代移位线性搜索PTS模块.zip_ITERATIVE PTS_PTS 迭代_PTS 迭代算法_PTS迭代算法_ofdm pts

具有第二矩约束的离散时间不确定随机二次线性最优控制

基于预补偿器的自适应动态规划的连续时间非线性系统无模型最优控制器设计

具有干扰的连续时间未知非线性系统的基于数据的自学习最优控制

基于一步迭代策略的非线性系统模型辨识 (2010年)

基于二维系统理论的变初始状态线性连续系统的迭代学习控制设计与应用

基于神经动态规划的连续时间非线性系统的约束在线最优控制

随机代数Riccati矩阵方程的两种迭代算法

最新资源