没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
22页
论文摘要:聪明的生物可以在没有监督的情况下探索环境并学习有用的技能。在本文中,我们提出了“多样性就是你所需要的”(DIAYN),一种无需奖励功能即可学习有用技能的方法。我们提出的方法通过使用最大熵策略最大化信息理论目标来学习技能。在各种模拟的机器人任务上,我们证明了这个简单的目标会导致无监督技能的出现,例如走路和跳跃。在许多强化学习基准环境中,我们的方法可以解决学习基准任务,而无需接受真正的任务奖励。我们展示了受过预训练的技能如何为下游任务提供良好的参数初始化,以及如何进行层次组合以解决复杂,稀疏的奖励任务。我们的结果表明,无监督的技能发现可以作为有效的预培训机制,以克服强化学习中的探索和数据效率挑战。
资源推荐
资源评论
资源评论
liz_lee
- 粉丝: 66
- 资源: 36
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功