论文研究-基于iLSTD(λ)的Actor-Critic学习 .pdf

需积分: 5 0 下载量 200 浏览量 2019-08-16 10:00:19 上传评论收藏 464KB PDF 举报

温馨提示

试读

8页

基于iLSTD(λ)的Actor-Critic学习，冯涣婷，程玉虎，尽管策略梯度强化学习算法具有较好的收敛性，但是在梯度估计过程中方差过大，影响了算法的性能。为了提高策略梯度算法的收敛速度