参考书目
目录
最佳手臂识别
黑盒优化
强化学习
理论
基于价值的
基于策略
策略梯度
影评人
无衍生品
基于模型
勘探
层次结构和时间抽象
部分可观察性
转移
多代理
表征学习
离线
从示范中学习
模仿学习自动驾驶应用
逆强化学习自动驾驶应用
运动规划
搜索
采样
优化
React式
架构和应用
最佳控制 :bullseye:
动态规划
(书)动态规划,Bellman R. (1957)。
(book) Dynamic Programming and Optimal Control, Volumes 1 and 2 , Bertsekas D. (1995)。
(book) Markov Decision Processes - Discrete Stochastic Dynamic Programming ,Puterman M. (1995)。
近似最优值函数损失的上限,Singh S.,