真的
您的强化学习盟友。
基于tensorflow,RAY和Gym的框架,用于处理强化学习任务。
一般说明
该框架最初是为奥斯纳布吕克大学的“深度强化学习”基础课程构建的。 在模块课程中,要求学生在框架的帮助下实现深层的RL算法。 课程完成后,将发布示例解决方案。
该框架仍在建设中,尚待优化。 如果您遇到错误或发现使事情更有效的方法,请随时提出问题或直接与我联系(Charlie Lange, ),并帮助使此框架更适合每个人!
总体设计
->插入图形
样本管理器
样品管理器使用远程运行器管理收集经验。 因此,必须使用环境规范和所使用的模型,代理的行为方式以及需要收集哪些数据来对其进行初始化。
缓冲
使用样本管理器,可以初始化一个缓冲区,可以在其中存储样本管理器通过其远程运行程序收集的数据,并且用户可以从中采样数据。
聚合器
使用样本管理器,可以初始化评估聚合器,其中可以存储来自主过
评论0
最新资源