没有合适的资源?快使用搜索试试~ 我知道了~
ThirdYearProject:增强强化学习代理
需积分: 5 0 下载量 194 浏览量
2021-03-19
21:38:35
上传
评论
收藏 1.53MB ZIP 举报
温馨提示
第三年项目 该项目使用强化学习来通过各种方法训练特工播放4x4和5x5井字游戏。然后,我可以比较每种方法。 为此,重点关注了RL实现常见的两个主要概念以及它们如何影响性能。这些概念是:代理程序的价值功能实现以及所使用的培训数据。 第一个概念-价值函数-可以以多种不同的方式实现,通常,每种实现都会根据以前在不同程度上看到的状态来更改RL代理能够“普遍化”的能力。此功能通常指的是对数值函数的近似程度。已经研究了在不同程度上近似值函数的实现及其与性能的关系。 第二个概念-训练数据-是指用于告知RL代理对环境的了解并因此用于告知其决策的数据。此培训数据(不同于其他类型的机器学习中的培训数据)不是由任何外部代理生成的,而是只能使用我们代理的当前理解来生成。产生此训练数据的方式称为训练数据方法,并且还将研究更改方法对我们RL代理商的表现的影响。 对于每个概念,已实施了不同的实施方式,这是由受过训练的4
资源推荐
资源评论
资源评论
刘怒威
- 粉丝: 26
- 资源: 4651
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- TG-2024-05-23-204718255.mp4
- 候志强@181 5428 8938_20240420112107.amr
- spispispispispi
- 实验二:IP协议分析.zip
- 驱动代码驱动代码驱动代码驱动代码
- SVID_20240523_141155_1.mp4
- Code for the complete guide to tkinter tutorial
- 关于百货中心供应链管理系统.zip
- SimpleFolderIcon-master 修改Unity的Project下的文件夹图标
- A python Tkinter widget to display tile based maps
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功