强化学习:简介
实施练习。
第 2 章 - 强盗问题
nbandit.py ,针对 n 臂强盗问题的贪婪和 epsilon 贪婪代理的实现。 有关其工作原理的解释,请阅读本书;)
玩接球
作为一个更有趣的测试,我接下来尝试了一个非常简单的游戏:Catch。
一个球从 5x5 比赛场地顶部的随机位置开始,每轮向下移动一排。 玩家控制球棒接球宽度,球可以向左移动、向右移动或静止不动。 接球奖励+1,错过-1。
一个简单的基于表格的智能体在大约 500 集后学习完美播放,基于神经网络的智能体(具有 1 和 2 个隐藏层)需要更长的时间,大约 3000 集:
评论0
最新资源