本文提出了一种计算方法来解决离散时间非线性最优控制问题,该问题受到一系列随机噪声的干扰。 由于不可能获得这种最优控制问题的精确解决方案,因此目前需要估计状态动态。 在此,假设可以从实际工厂过程中测量输出。 在我们的方法中,应用状态平均传播来构造基于线性模型的最优控制问题,其中模型输出是可测量的。 在此基础上,定义了一个输出误差,该误差考虑了实际输出与模型输出之间的差异。 然后,通过应用随机逼近方法将输出误差最小化。 在计算过程中,建立了随机梯度,因此可以迭代更新所使用模型的最优解。 一旦实现收敛,尽管存在模型-现实差异,但迭代解仍近似于原始最优控制问题的真实最优解。 为了说明这一点,研究了一个关于连续搅拌釜反应器问题的例子,所得结果表明了该方法的适用性。 因此,强烈建议所建议的方法的效率。