本篇用代码演示《强化学习》第三讲中的示例——方格世界,即用动态规划算法通过迭代计算来评估4*4方格世界中的一个随机策略。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~