没有合适的资源?快使用搜索试试~ 我知道了~
Internship_ESTECO
共25个文件
py:16个
ipynb:3个
md:3个
需积分: 5 0 下载量 123 浏览量
2021-04-05
18:14:00
上传
评论
收藏 161KB ZIP 举报
温馨提示
实习_ESTECO 政策评估:用于解决预测问题。 给定特定策略π时,它用于查找状态值函数$ v _ {\ pi} $。 策略改进:通过使用状态值函数和策略改进定理来改进策略。 策略迭代:一种迭代算法,其中使用策略评估和策略改进以返回最佳策略和状态值函数。 价值迭代:找到最优的状态价值函数,并从中提取最优政策。 Sarsa:基于策略的学习算法。 使用错误和学习率来更新动作值函数。 它遵循特定的政策。 Q Lerning:非政策学习算法。 它能够更改策略。 Hedger:对连续状态和动作空间的第一种方法,其中使用函数逼近来扩展Q-Learning算法。 在这里,近似值是使用局部加权回归获得的。 DQN:用于连续状态和动作空间的RL算法。 Q学习的扩展,其中使用神经网络来近似Q动作值函数。
资源推荐
资源详情
资源评论
收起资源包目录
Internship_ESTECO-main.zip (25个子文件)
Internship_ESTECO-main
prova.py 445B
gym-Continuous
gym_Continuous
envs
Continuous_env.py 542B
__init__.py 141B
Continuous_extrahard_env.py 0B
__init__.py 240B
setup.py 154B
README.md 0B
gym-RL
gym_RL
envs
RL_env.py 1KB
__init__.py 93B
RL_extrahard_env.py 0B
__init__.py 192B
setup.py 146B
README.md 0B
code
Dynamic Programming.ipynb 114KB
SB.py 751B
DQN.py 10KB
Gambler.ipynb 35KB
Multi-Armed Bandits.ipynb 63KB
Gym.py 3KB
requirements.txt 969B
LICENSE 11KB
README.md 1KB
algorithm
__init__.py 0B
common.py 2KB
.gitignore 181B
共 25 条
- 1
资源评论
沐水涤尘
- 粉丝: 24
- 资源: 4626
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功