没有合适的资源?快使用搜索试试~ 我知道了~
maintenance_learning_course_materials:讲义,包括解决方案的教程任务以及帕德博恩大学举办的强...
需积分: 9 1 下载量 4 浏览量
2021-02-03
09:28:09
上传
评论
收藏 65.52MB ZIP 举报
温馨提示
强化学习课程资料 讲义,教程任务(包括解决方案)以及帕德博恩大学主办的强化学习课程的在线视频。 整个课程材料的源代码是开放的,我们诚挚地邀请所有人使用它进行自学(学生)或设置自己的课程(讲师)。 演讲内容 强化学习导论 马尔可夫决策过程 动态编程 蒙特卡洛方法 时差学习 n步自举 使用表格方法进行计划和学习 监督学习下的函数逼近 函数逼近的策略上预测 基于函数的基于值的控制 资格跟踪 政策梯度法 第一部分摘要:有限状态和动作空间中的强化学习 第二部分摘要:课程完成和展望 全部课程幻灯片 练习内容 适用于科学计算的Python基础 手动解决基本的马尔可夫链,奖励和决策问题 啤酒学士和动态编程(最短啤酒问题) 蒙特卡洛学习助您穿越赛道 使用时差学习更快地驱动 表格n步法稳定倒立摆 通过整合学习与计划来促进倒立摆(Dyna框架) 在监督学习下预测实际电驱动系统的运行行为 使用函数逼近评估山地车问题中给定代理的性能 使用半梯度Sarsa和最小二乘策略迭代从山车谷逃生 使用Sarsa(Lambda)改进基于价值的车载解决方案 使用REINFORCE和演员批评方法登陆月球 引文 请使用以下Bib
资源推荐
资源评论
资源评论
HarfMoon
- 粉丝: 17
- 资源: 4560
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功