没有合适的资源?快使用搜索试试~ 我知道了~
DQN:带有重播缓冲区的深度Q网络实现
共2个文件
md:1个
py:1个
需积分: 5 3 下载量 159 浏览量
2021-04-03
07:48:00
上传
评论
收藏 5KB ZIP 举报
温馨提示
DQN 带有重播缓冲区的深度Q网络实现 在本课程中,我实施了DQN来解决代理商必须达到目标的迷宫。 从高层次的角度来看,代理从其经验中学习。 在每个步骤之后,根据当前状态和新状态收集正或负奖励(第254-263行)。 特别地,该代理因非常接近目标而受到积极奖励(第254行),因撞墙而受到惩罚(第257行),并因有效地向右移动而受到积极奖励(第260行)。 垂直移动既不会受到惩罚也不会得到奖励(第263行)。 同样,碰壁也要按距球门距离的比例进行惩罚。 在每个步骤中,业务代表都可以在三种可能的操作之间进行选择:上,下,右(240-248)。 在训练过程中,决定采取什么行动是由ε贪婪策略控制的(第196-211行),其中以(1- −ε)+ε/ 3的概率选择最佳行动,而其他所有行动均以ε/的概率进行选择3。 这使代理既可以探索环境,也可以利用迄今为止所学的知识。 为了优化在勘探和开发之间的权衡
资源推荐
资源详情
资源评论
收起资源包目录
DQN-main.zip (2个子文件)
DQN-main
DQN.py 11KB
README.md 3KB
共 2 条
- 1
资源评论
起名什么的最烦啦
- 粉丝: 19
- 资源: 4639
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功