思维导图根据王树森老师课件整理。 主要包括: 强化学习基本概念 基本方法(Value-Based、Policy-Based、Actor-Critic) 策略学习(Reinforce with baseline、A2C) 价值学习(Sarsa、Q-Learning(DQN)) 连续动作控制(DPG、DDPG) 包含上述各种基本算法的原理及公式推导
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~