研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~