没有合适的资源?快使用搜索试试~ 我知道了~
Deep Reinforcement Learning through Policy Op7miza7on
需积分: 9 9 下载量 161 浏览量
2018-02-15
22:09:35
上传
评论
收藏 44.44MB PDF 举报
温馨提示
Deep Reinforcement Learning through Policy Optimization Pieter Abbeel Open AI / Berkeley AI Research Lab Slides made in collabora<on with John Schulman
资源推荐
资源详情
资源评论
Deep$Reinforcement$Learning$$
through$
$Policy$Op7miza7on$
!
"#$%$&!'(($$)!
*+,-!./,0)12-!
34$-!'5!!6!7$&8$)$9!'5!:$;$2&/,!<2(!
!
!
:$#-=+&/$1$-%!<$2&-#->!
?@#>0&$!;+0&/$A!.0B+-!C!72&%+D!EFFGH!
*+,-!./,0)12-!C!"#$%$&!'(($$)!I!34$-'5!J!KL!7$&8$)$9!
u
t
"+)#/9!34M1#N2M+-!
*+,-!./,0)12-!C!"#$%$&!'(($$)!I!34$-'5!J!KL!7$&8$)$9!
⇡
✓
(u|s)
u
t
?@#>0&$!;+0&/$A!.0B+-!C!72&%+D!EFFGH!
"+)#/9!34M1#N2M+-!
n L+-;#O$&!/+-%&+)!4+)#/9!42&21$%$&#N$O!
(9!42&21$%$&!P$/%+&!
!
n 3Q$-!;%+/,2;M/!4+)#/9!/)2;;!R;1++%,;!
+0%!%,$!4&+()$1SA!
!!!!!!!!!!!!!!!!!!!!A!4&+(2(#)#%9!+=!2/M+-!0!#-!;%2%$!;!!
✓
max
✓
E[
H
X
t=0
R(s
t
)|⇡
✓
]
⇡
✓
(u|s)
⇡
✓
(u|s)
u
t
?@#>0&$!;+0&/$A!.0B+-!C!72&%+D!EFFGH!
*+,-!./,0)12-!C!"#$%$&!'(($$)!I!34$-'5!J!KL!7$&8$)$9!
n 3Q$-!!!!!!/2-!($!;#14)$&!%,2-!T!+&!U!
n VW>WD!&+(+M/!>&2;4!
n UA!O+$;-X%!4&$;/&#($!2/M+-;!
n Y+0)O!-$$O!O9-21#/;!1+O$)!RJ!/+140%$!E!7$))12-!(2/8Z04S!
n TA!-$$O!%+!($!2()$!%+!$[/#$-%)9!;+)P$!
n L,2))$->$!=+&!/+-M-0+0;!6!,#>,ZO#1$-;#+-2)!2/M+-!;42/$;
\!
Y,9!"+)#/9!34M1#N2M+-!
⇡
\
;+1$!&$/$-%!]+&8!R42&M2))9S!2OO&$;;#->!%,#;A!!
!^'@A!_0D!<#))#/&24D!.0%;8$P$&D!<$P#-$!5L`<!abEc!
!5-40%!L+-P$d!^^;A!'1+;D!e0D!f+)%$&!2&e#P!abEc!!
arg max
u
Q
✓
(s, u)
*+,-!./,0)12-!C!"#$%$&!'(($$)!I!34$-'5!J!KL!7$&8$)$9!
剩余119页未读,继续阅读
资源评论
morre
- 粉丝: 187
- 资源: 2329
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功