基于iLSTD(λ)的Actor-Critic学习,冯涣婷,程玉虎,尽管策略梯度强化学习算法具有较好的收敛性,但是在梯度估计过程中方差过大,影响了算法的性能。为了提高策略梯度算法的收敛速度
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~