没有合适的资源?快使用搜索试试~ 我知道了~
reinforcement_learning_specialisation_notes:强化学习专家的笔记
共220个文件
png:141个
py:27个
npy:23个
需积分: 7 0 下载量 16 浏览量
2021-03-19
14:20:01
上传
评论
收藏 118.92MB ZIP 举报
温馨提示
强化学习笔记简介 我的来自Coursera和艾伯塔大学的。 它们都包含漂亮的$ \ LaTeX $公式。 如果在上方看到$\LaTeX$而不是格式精美的文字,则建议使用。 我从课程1的第一周顶部列出的资料中自由地提取了文本和公式。 强化学习基础 基于样本的学习方法 [WIP] [尚未开始]
资源详情
资源评论
资源推荐
收起资源包目录
reinforcement_learning_specialisation_notes:强化学习专家的笔记 (220个子文件)
C2M2-Assignment-v4-submitted.ipynb 829KB
Assignment1-v2.ipynb 665KB
Assignment1-v2.ipynb 665KB
assignment.ipynb 604KB
C2M2-Assignment-v4.ipynb 416KB
C2M2-Assignment-v4-submitted-v2.ipynb 278KB
assignment.ipynb 184KB
C1M4_Assignment2-v3.ipynb 178KB
Blackjack.ipynb 50KB
ch3-exercises.jpg 190KB
wk1.md 27KB
wk3.md 20KB
wk1.md 19KB
wk4.md 15KB
wk2.md 13KB
wk4.md 12KB
wk3.md 11KB
wk2.md 10KB
README.md 1KB
textbook-reading-todo.md 1KB
TODO.md 337B
step_size.npy 1.53MB
step_size.npy 1.53MB
e-greedy_scores.npy 1.53MB
e-greedy_scores.npy 1.53MB
expected_sarsa.npy 391KB
q_learning.npy 391KB
greedy_scores.npy 8KB
greedy_scores.npy 8KB
optimal_policy_value_fn.npy 512B
e-greedy_test.npy 168B
e-greedy-0.01.npy 168B
greedy_test.npy 168B
e-greedy-1.0.npy 168B
e-greedy-0.5.npy 168B
e-greedy-0.1.npy 168B
e-greedy_test.npy 168B
e-greedy-0.01.npy 168B
greedy_test.npy 168B
e-greedy-1.0.npy 168B
e-greedy-0.5.npy 168B
e-greedy-0.1.npy 168B
argmax_test.npy 160B
argmax_test.npy 160B
Course_01_Notes_Santiago_Zubieta.pdf 8.75MB
Sample-Based-Learning-Methods-Learning-Objectives.pdf 83KB
Fundamentals-of-Reinforcement-Learning_Learning-Objectives.pdf 65KB
RLbook2020trimmed.pdf 71.64MB
wk5-quiz-answers.png 2.49MB
wk1-quiz.png 2.21MB
wk2-quiz.png 1.76MB
wk3-Richard-Sutton.png 1.59MB
wk3-quiz.png 1.44MB
wk3-quiz.png 1.29MB
wk2-quiz.png 1.22MB
wk4-quiz.png 1.18MB
wk1-quiz.png 934KB
wk3-quiz-prac.png 814KB
wk2-monte-carlo-off-policy-v-pi-algorithm.png 723KB
wk2-epsilon-soft-pseudocode.png 666KB
wk4-quiz.png 552KB
wk3-gridworld-state-all-eq.png 481KB
wk4-value-iteration-algorithm.png 469KB
wk5-planning-steps-vs-learning.png 452KB
wk5-quadratic-approximation-steps.png 450KB
wk3-RMS-error-TD-vs-MC.png 437KB
wk5-quadratic-approximation-formula.png 423KB
wk4-revisiting-bellman-equations.png 421KB
wk4-policy-improvement-formulae.png 417KB
wk3-choosing-argmax-a.png 415KB
wk4-dynamic-programming-uses-p.png 413KB
wk1-epsilon-greedy-10-armed-01.png 411KB
wk4-subtleties-with-off-policy-control.png 406KB
wk2-episodic-vs-continuing.png 403KB
wk3-summary-03.png 402KB
wk1-contextual-bandits-real-world.png 401KB
wk2-effect of-gamma.png 397KB
wk4-sarsa-vs-Q-episode-rewards.png 377KB
wk3-bellman-optimality-solving.png 366KB
wk2-monte-carlo-GPI-01.png 364KB
wk3-state-value-bellman-eq.png 362KB
wk4-gridworld-converged.png 362KB
wk2-off-policy-trajectories.png 360KB
wk4-expected-sarsa-off-policy.png 356KB
wk4-iterative-policy-evaluation-pseudocode.png 354KB
wk5-quadratic-approximation-resources.png 353KB
wk4-windy-gridworld-parameter-study.png 352KB
wk2-continuing-discounting.png 350KB
wk4-sarsa-windy-gridworld.png 348KB
wk2-action-values-and-exploration.png 345KB
wk4-expected-vs-sarsa-parameter-study-50000x.png 341KB
wk4-gridworld-01.png 340KB
wk4-TD-control-agorithm-comparison.png 339KB
wk3-gridworld-state-A-eq.png 338KB
wk5-random-sample-one-step-tabular-Q-learning.png 337KB
wk3-bellman-optimality-v-star.png 336KB
wk3-determining-optimal-policy-diagram.png 335KB
wk2-continuing-finality.png 330KB
wk2-blakjack-state-values-01.png 328KB
wk3-optimal-policy-example.png 327KB
共 220 条
- 1
- 2
- 3
缪建明
- 粉丝: 42
- 资源: 4686
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0