论文研究-基于广义投影神经网络优化的模型预测控制.pdf

所需积分/C币:23 2019-07-22 18:45:00 1.16MB .PDF
收藏 收藏
举报

为降低模型预测控制优化问题的计算复杂度,以时滞系统的模型预测控制问题作为研究对象,利用神经网络动态平衡点与优化问题解相对应的特点,提出一种基于广义投影神经网络的模型预测控制优化算法。首先将模型预测控制优化问题描述为一个带约束的二次规划问题,再通过广义投影神经网络模型进行在线优化。该方法充分发挥了神经网络并行、结构简单的优点,通过具体实例仿真验证了该算法的有效性和优越性。
1668· 计算机应用研究 第33卷 低了网络的复杂度。因此,本文采用广义神经网络模型来优化中:A=「12025 [11中采用的对偶神经动态优化方法相比,神经元个数少,降 021]8=[2.=101,h为控制时 模型预测控制问题。该神经网络动态方程形式如下: 滞。假定:采样次数为50次,预测步长N=10,控制步长N。 T=g(G(x)-F(x))-G(x) 5,性能指标中加权矩阵Q=l,P=l,输出期望值r=3;根据上 文所述,当采样时刻k=1时,将时滞系统转换成对应的二次规 其中x表示状态变量;G(x)、F(x)是连续的微分函数;g()划函数式(8),求出相应参数E、FG、H、Wp、C、1、g的值;由 是分段投影函数;r是网络参数。 二次规划函数的最优解对应神经网络的稳定状态,得到广义神 二次规划问题式(8)的拉格朗日函数表小如下: 经网络动态方程式(12),求出目标函数最小时对应的优化输 (e, n)=W+C'u-2(v-n) (10)入增量Δn(k);将输入增量与上一时刻输入相加,获得当前采 样时刻的最优输入u(k),并作为下·时刻的初始值,求得对应 其中:7∈Z{∈R+M1≤x≤h},∈R+为拉格朗日乘 的状态值x(k+1);令k=k+1,在下一采样时刻重复上述步 子。由鞍点定理和投影定理得变量间关系式满足: 骤,最终得到系统最优控制输入序列。对系统按上述方法进行 7-q 仿真实验,获得结果如图2~7所示 n=g2(7-z) (11) 图2和3分别为两种神经网终的状态轨迹,两种神经网终 都可使系统达到稳定状态,但处理相同的模型预测控制优化问 则厂义投影神经网络动态方程可描述为 题,对偶神经网络收敛速度明显较慢,且神经元个数为N+ Lg, (g(n)-F(n))-G(m) 2N,而本文采用的广义投影神经网络神经元个数为2N,网终 其中:=(Wp)+,s=qWφ,B=aWC,=s,q 结构更为简单。图4、5为h=2时系统输入和输出,图6、7为 -φWc,eRtn h=3时系统输人和输出。由图可知,在不同的时滞时间常数 F(D)=ou+8, G(v)=sov +6+9 下,两种网络模型基本都在采样时刻15-20间达到稳定,但丿 L. 8<7 义投影神经网络优化速度更快,且在控制约束范围内预测输 (0)={0l≤9≤h 入、输出波动较小,更为平稳,显示出更好的优化特性。 0.8 其中:表示矩阵c的伪逆矩阵;g(0)表示神经元的激励函 0.2 数,∈R是原始的优化控制增量,神经元个数为N,m。其神 02 经网络结构如图1所小。 由图1可知,该神经网络结构简单,易于电路实现。神经 元个数仅与输人不等式约束个数相等,网络规模小、计算复杂 23456 时 度低。与文献[11]中采用对偶神经网络优化MPC相比,广义 图2对偶神经网络的 图3广义投影神经网络的 投影神经网络在处埋模型预测控制问题中具有明显优势。 状态变量轨迹 状态变量轨迹 04 广义投影神经网络 F(}-g,) T LS G(v 上产 亠化对偶神刚络2.5 F②,8地 -06 (15 G(a 0.8 1 F+Q→[ 05101520253035404550 采样次数k 采样次数k 图4h=2预测控制输人 图5h=2预测控制输出 图1广义投影神经网络模型 0.5 -对偶神经网络 偶神经网络 3数值仿真 0.5 本文仿真的目的是为了验证上述方法的有效性。针对 个具体的含时滞约束的控制系统,采用 MATLAB软件对其进 行仿真,并与文献[1l中采用的优化方法作对比。 0511520253035445005101520253035404550 采样次数k 采样次数 x(A+1)= 图6h=3预测控制输人 图7h=3预测掉制输出 y(k)=「101x(k) 从上述实验结果可以看出,基于广义投影神经网络的优化 0.2 方法,超调小,神经元个数少,响应速度快,显示出广义投影神 x(0)= 经网络优化模型预测控制的优越性。 约束条件为 4人工气候箱温湿度控制 -5≤x(k)≤5 -10≤y(k)≤10 人工气候箱是具有加热、加湿功能的高精度设备,主要用 第6期 梁肖,等:基于广义投影神经网络优化的模型预测控制 1669 于模拟自然环境,为生物、化学、农业等领域提供模拟人工气候 环境。其控制的核心问题是温、湿度控制的精度,以及控制的5结束语 响应速度。由人工气候箱结构可知,人工气侯箱内温度和湿度 本文在研究般系统模型的基础上,考虑到时滞现象对系 存在耦合特性,另外温度和湿度对象都存在不同程度的滞后特统稳定性的影响,提出采用广义投影神经网络模型对含时滞模 性,这使得人工气候箱内的温湿度精确控制非常难。目型预测控制问题进行在线优化,并与对偶神经网络模型预测控 前广泛使用的人工气候箱主要控制方法为PD控制,但制作对比,通过含有时滞和温湿度耦合的人工气候箱控制模型 存在较大的超调现象;模糊控制虽然能很好地抑制超凋和滞后来验证所述方法的正确性。实验结果表明广义神经网络优化 现象,但精度低;文献1]中提岀采用简化对偶神经网络优时滞模型预测控制,结构简单、优化速度快,且易于电路实现。 化的模型预测控制方法能很好地抑制超调现象,并调节系统滞本文实例采用了线性对象,但本方法也适用于非线性系统。 后问题,然而网络结构复杂。木文采用广义神经网络优化模型 预测控制方法,在简化网络结构的前提下,解决人工气候籍湿考文献: 湿度对象时滞及耦合情况下的精确控制冋题。 [1 Richalel J, Raul A, Teslud J L, el al. Model predictive heurisic control: applications to industrial processes[ J. Automatica, 1978 人工气候箱温湿度模型的状态方程描述如下 14(2):413-428. 01000000 1a2000000 [2 Cutler CR, Ramaker B L. Dynamic matrix control: a computer con 00010000 Irol algorithm [C//Proe of the Juinl Aulnrmalic Corl rol Conference 0b1b200000 1980 x(h+1)= 0000010nax(k)+ [3] Rouhari R, Mehra R K. Modlel alyrillmie e: onIruI: basie Ihetrelieal 0000c1200 properties[ J]. Automatica, 1982, 18(4): 401-414 00000001 000000d1d2 [4 Clarke DW, Mohladi C, Tuffs P S. Generalized predictive control 0000 part 1: the basic algorithm[ J. Automatica, 1987, 23(2): 137 k1000 0000「u1(k-d1) [5 Lelic M A, Zarrop M B. Ceneralized pole placements self-tuning con 0k2002(k-d2 oller[ J. International Journal of Control, 1987, 46(2):547 0 (k-d3) 568 000k3 0000 [6 Pan Yunpeng, Wany Jur. Two neural network appr(aches predictive control[ C 1//Proc of American Control Conference. 2008 10100000 (k)=00001010/(4) l685-1690 [7 Pan Yunpeng, Wang Jun. Model predictive control for nonlinear af 其中 a1=-a1a12,a2=-(a1+a12) fine systems hased on the simplified dual neural network [C]//Proc of b2=-(a21+a22) Control Applications Intelligent Control Conference. 2009: 683 88. d1=-a41a12,d2=-(a1+a42) [8 Zheng Yan, Wang Jun. Model predictive control of nonlinear affine a11=0.2,a12=a21=a31=a4=0.1,22=0.02,a32=0.05,a41=0.5 systems based on the general projection neural network and its appli- h1=0.5,h2=0.3,k3=0.2,h4=0.6,1=h2=h3=h4=1, cation to a continuous stirred tank actor[ C//Proc of International 设预测步长为10,控制范围为5,加权矩阵Q=21,P=1,网络 Conference on Information Science and Technolngy. 2011: 1011-1015 参数为r=1×101,温度响应范围为-15℃-100℃,湿度采用「9 Zheng Yan, Chung shutong, Wang Jun. Model predictive control of 相对湿度,响应范围是0%~100%,u1、u2、y1、y2分别为温、湿 atllonoImuS underwater vehicles hasel on the simplified dual neural 度的控制输入和输出。采用上节所述优化方法,分别对人工气 nctwork[ C ]//Proc of IEEE International Confcrcncc on Systcms 候箱进行阶跃响应和周期响应测试,实验获取结果如图8、9 Man, and Cybernetics. 2012: 2551-2556 所小 由实验结果可知,广义神经络优化的人工气候箱模型预 测控制,在保证系统稳定的基础上,比简化对偶神经网络优化 [C1/ Proc of the 3rd Chinese Control Conference. 2014: 8353-8358 这度更快,且能够很好地处理输入时潛和约束问题,并在约束 [11]彭斐,彭勇刚,韦巍。基于神经动态优化的人工气候箱温湿度模 型预测控制[J].农业工程学报,2014,30(9):176-181 范围内有效地跟踪给定的温混度信号,达到快速并精确调节人[12]彭勇刚,书铠,王均,时滞约束系统的神经动态优亿模型预测拉 工气候箱溫湿度的目的。 制[J].仪器仪表学报,2013,34(5):961-966 温度 13 Liu Qinshan, Wang Jun. A one-layer recurrent neural network with a 神经网络温度 对偶神经网络湿度 期望温度 discontinuous hard-limiting activation function for quadratic program 王 对偶神经网络温度8 :[ J]. IEEE Trans on 008,19(4) 二 570. 米米米米 10 14]Hu Xiaolin, Wang Jun. An improved dual neural network for solving 0102030405060708090100 0 0406080100 采样次数l 采样次数 application[ J]. IEEE Trans on Neural Networks, 2008, 19(12) 图8两种MPC优化方法的 图9广义神经网络优化MPC 2022-2031 温湿度阶跃应曲线 方法的温湿度同期响应曲线 (下转第1675页) 第6期 陈仕超,等:一种基于高斯过裎的行动者评论家算法 1675 INAC算法。 [2 Busoniu L, Babuska R, Deschutter B, et al. Reinforcement learning 表1三种算法在不同的探索因子σ下成功率的比较 and dynamic programming using function approximators[ M]. Boca BGPAC算法 Raton. FL. CRC Press. 2010 CACLA算法 NAC算法 [3ˉ刘仝,傳启明,龚声蓉,等.最小状态变元平均奖赏的强化学习 91.2% 法[冂].通信学报,2011,32(1):66-71 4 Konda V R, Tsitsiklis J N. On actor-critic algorithms [J]. SIAM 48.9% 0.005% 4.4% Journal on Control Optim, 2003, 42(4): 1143-1166 表2三种算法在不同的探索因子σ下第一次成功的比较 [5 Roscnstcin M T, Barto A G. Supervised learning combined with an BGPAC算法 CACLA算法 INAC算法 actor-critic architecture, TR 02-41[R].[S1.]: CMPSCI, 2002 [6 Grondman I, Busoniu L, Lopcs G A D, et al. A survcy of actor-critic forcement learning: stane EE Trans on Systems, Man, and Cybernetics, Part C: Ap 21 703 plications and Reviews, 2012, 42(6): 1291-1307 根据以分析可知, BGPAC算法在整体性能上远远超过[7 Sutton R s, Mcallester d, Singh s,eial. Policy gradient mcthods 了 CACLA算法与INAC算法,这是因为 BGPAO算法利用高斯 for reinforcement learning with function approximation[ C ]//Ad- 过程对值函数生成了一个新的概率生成模型,再通过贝叶斯推 vances in Neural Information Processing Systems. Cambridge MIT 理求解值函数参数的后验分布,不仅提高了算法的预测精准 Press. 2000 度,还提高了算法的学习速率;并且该算法利用TD误差的梯8] Peters J, Schaal S. Natural actor -critic[J]. Neurocomputing 度卜降方法最小化均方误差更新策略参数,增强了算法的学 2008,71(7-9):1180-190 稳定性。该算法每个时间步的时间复杂度为O(n2)。 [9 Peters J, Vijayakumar S. Schaal S. Reinforcement learning for hu manoid robotics[ C]//Proe of IEEE-RAS International Conference on 4结束语 Humanoid robotics. 2003 10 Dearden R, Friedman N, Russell S. Bayesian Q-learning[ c]// Proc 本文主要针对连续状态动作空间问题以及学习过程中的 of thc 15th National/ 1Oth Conference on Artificial Intelligence/ Inno 探索与利用问题,在行动者一评论家基础结构下提出了BG alive Appliealiors of Arlificial Intelligence. [S.1.]: AAAI Press PAC算法,该算法对状态值函数和动作值函数作线性近似函 1998:761-768 数逼近,并且引入高斯过程和贝叶斯推理,使得状态值函数生 I 1 Engel Y, Mannor S, Meir R. Bayes meeTs Bellman the gaussian 成一个新的概率生成模型,并在该概率模型中引入不确定度衡 process approach to temporal difference learning[ C l// Proc of the 量,利用该概率模型对值函数进行估计,同时绐出该估计值的 20th International Conference on Machine Learning. 2003: 154 不确定度,以此来提高算法的预测精准度,在一定程度上解决121 Ghayamzadch M, Engel Y. Bayesian actor-critic algorithms [C] PrIx of he 241h Inlernaliunal cun ferene on Machine I earning. New 了探索与利用平衡问题。同时在算法执行过程中,动作值函数 York. ACM Press, 2007 则利用TD误差来减小学习误差以调整策略参数,TD误差越[13] GhavanIzadleh M, Engel y. Bayesian olie y gradient[C//Proc of 大其凋整量也越大.使得算法能更好地区分不同好坏程度的动 the 20th Annual Conference on Advances in Neural Information pro- 作。本文以平衡杆作为实验平台,通过与 CACLA算法和INAC essing Syslems. Carnbridye: MIT, 2007: 457-46.5 算法的比较,得出 BGPAC算法具有更好的学习性能。本文主「141 Engel y. Mannor s,MerR. Bayesian reinforcement learning with 要关注连续状态动作空间和平衡探索与利用的问题的求解,这 gaussian process temporal difference methods[ EB/OL.(2007-08 两个问题是强化学中的两大难点问题,连续状态动作空间问 20).http://www.ecemegill.ca/-smannol/public/p_engelm 题不仪可采用线性近似函数逼近方法,还可以采用无参函数逼 Meir_ypl. pdl 近方法;对TD误差的估计还可以采用资格迹方法来提高对当151VasN, havamzadeh M,Mams,am. Bayesian reinforcement 前状态下的TD误差估计,以提高算法的性能。 learning[ M]//Reinforcement learning. Berlin: Springer, 2012 参考文軾 L 16 Engel Y, Mannor S, Meir R. Reinforcement learming with Gaussian I 11 Sutton R S, Barto A C. Reinforcement learning: an introduction rocesses[C]// Proc of the 22nd International Conference on Ma- M]. Cambridge: MIT Press, 1998 chine Leaning. New York: ACM Press, 2005 (上接第1669页 [15 Hu Xiaolin, Zhang Ro. A new recurrent neural nlelwnrk for solving solving opplimizalinn and relaled problems[ C]// Proc of Internal ional convex quadratic programming problems with an application to the h Joint Conference on Neural Networks. 2003: 2334-23 winners-take- -all problen[J. IEEE Trans on Neural networks,[l8」钟应善杨家强,邓劲莲.温室温度和湿庋的多变量模糊控制技 209,20(4):654-66 术[J].农业机械学报,2001,32(3):75-78 l6] Zhang liyar,φ uan shuhai, Giang Kui. Recurrent neural networkφp-[19」彭勇刚,韦巍.基于神经网络补偿的人工气候箱温湿度模潮控制 timization for model predictive control[ C//Proc of IEEE World Con- [J].仪器仪表学报,2009,30(7):1373-1377 gress on Computational Intelligence. 2008: 751-757 [20]周克良,张建荣.基于ARM及模糊解耦控制的人工气候箱控削 17] Xia Yongshen, Wang Jun. A general projection neural network for 系统[J].仪器仪表与分析检测,2007(3):3-5.

...展开详情
试读 5P 论文研究-基于广义投影神经网络优化的模型预测控制.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于广义投影神经网络优化的模型预测控制.pdf 23积分/C币 立即下载
    1/5
    论文研究-基于广义投影神经网络优化的模型预测控制.pdf第1页
    论文研究-基于广义投影神经网络优化的模型预测控制.pdf第2页

    试读已结束,剩余3页未读...

    23积分/C币 立即下载 >