没有合适的资源?快使用搜索试试~ 我知道了~
ICML 2019 笔记.pdf
需积分: 5 0 下载量 198 浏览量
2024-02-03
12:12:15
上传
评论
收藏 1.65MB PDF 举报
温馨提示
试读
87页
ICML 2019 笔记
资源推荐
资源详情
资源评论
ICML 2019 会议笔记
美国加利福尼亚州长滩
大卫·阿贝尔
∗
david_abel@brown.edu
2019年6月
目录
1 会议亮点 4
2 6月10日星期一:教程 5
2.1 教程:PAC-Bayes理论(第二部分) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 PAC-Bayes理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 PAC-Bayes和任务意识 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 教程:元学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 两种视角看待元学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 元学习算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 元强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.4 元学习中的挑战和前沿 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 6月11日星期二:主会议 19
3.1 最佳论文报告:挑战学习解耦表示 19
3.2 投稿演讲:深度强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 DQN和时间离散化 [82] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.2 非线性分布梯度 TD 学习 [67] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.3 使用发散校正组合熵策略 [38] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.4 TibGM: 一种用于强化学习的图模型方法 [2] . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.5 多智能体对抗逆强化学习 [93] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.6 连续强化学习的策略整合 [44] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.7 无探索的深度强化学习离线策略评估 [26] . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.8 随机专家蒸馏 [90] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.9 重新审视 Softmax Bellman 操作符 [79] . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 贡献演讲:强化学习理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 用于高效探索的分布式强化学习 [57] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 通过重要性采样的乐观策略优化 [62] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.3 神经逻辑强化学习 [41] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
∗
http://david-abel.github.io
1
3.3.4 在 MDP 中学习协作 [68] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.5 预测-校正策略优化 [15] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.6 通过元逆强化学习学习意图先验 [91] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.7 DeepMDP: 学习RL的后期空间模型 [30] . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.8 重要性采样策略评估 [35] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.9 从学习者中学习 [40] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.10 在时间尺度上分离价值函数 [72] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.11 在RL中学习动作表示 [14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.12 贝叶斯对抗风险最小化 [55] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.13 每个决策选项计数 [36] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.14 RL中问题相关的遗憾界限 [94] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.15 正则化MDP的理论 [29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.16 通过最小化覆盖时间来探索选项 [43] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.17 策略证书: 迈向可追溯的RL [20] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.18 行动鲁棒强化学习 [83] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.19 值函数多面体 [19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6月12日星期三:主会议 38
4.1 投稿演讲:多任务和终身学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1 领域无关学习与分离表示 [64] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.2 强化学习中的值函数组合 [87] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.3 CAVIA: 快速上下文适应通过元学习 [95] . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.4 基于梯度的元学习 [45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.5 迈向理解知识蒸馏 [65] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.6 可迁移的对抗训练 [53] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 贡献演讲:强化学习理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1 仅通过观察进行可证明高效的模仿学习 [80] . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.2 死胡同和安全探索 [25] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.3 分布式强化学习中的统计和样本 [74] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.4 基于Hessian的策略梯度 [78] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.5 最大熵探索 [37] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.6 结合多个模型进行离线策略评估 [32] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.7 使用线性特征的参数化 Q学习的样本最优 [92] . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.8 策略搜索中的样本迁移 [84] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.9 探索意识强化学习再探 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.10 基于核的鲁棒MDP的强化学习 [51] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6月13日星期四:主会议 51
5.1 贡献演讲:强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 在约束条件下的批量策略学习 [49] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.2 量化强化学习中的泛化能力 [17] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.3 从像素中学习潜在动态规划 [34] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.4 近似策略迭代的投影 [3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.5 无意识学习结构化决策问题 [39] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.6 校准的基于模型的深度强化学习 [56] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.1.7 可配置连续环境中的强化学习 [59] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2
5.1.8 基于目标的时差学习 [50] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1.9 线性化控制:稳定算法和复杂性保证 [73] . . . 58
5.2 贡献演讲:深度学习理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.1 为什么更大的模型具有更好的泛化能力?[12] . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.2 关于神经网络的谱偏差[69] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.3 用于模块化深度学习的递归草图[31] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.4 深度网络中的零样本知识蒸馏[60] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.5 通过过度参数化实现深度学习的收敛理论[4] . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3 最佳论文奖:稀疏高斯过程回归的收敛速度 . . 63
6 6月14日星期五:研讨会 65
6.1 研讨会:人工智能应对气候变化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1.1 约翰·普拉特关于机器学习如何帮助应对气候变化 . . . . . . . . . . . . . . . . . . . . 65
6.1.2 杰克·凯利:为什么减缓气候变化很困难,如何做得更好67
6.1.3 安德鲁·吴:通过合作应对气候变化的人工智能方法 . . . . . . . . . . . . . . . . . . 68
6.2 研讨会:现实生活中的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.2.1 小组讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.3 研讨会:现实世界的顺序决策 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.3.1 Emma Brunskill 关于数据成本高昂时的高效强化学习 . . . . . . . . . . . . . . . . . 76
6.3.2 Miro Dudik:通过收缩进行双重稳健的离线策略评估 . . . . . . . . . . . . . . . . . . 78
3
这份文件包含了我在ICML会议上参加的活动期间所做的笔记,会议地点在美国加利福尼亚州长滩
。请随意传阅,并在发现任何拼写错误或其他需要更正的地方时给我发送电子邮件至david_abel@b
rown.edu。
1 会议亮点
这一轮我大部分时间都在强化学习会议上度过(可惜错过了所有的主题演讲),所以我的反思(
和笔记)主要集中在强化学习方面:
1. 关于离线策略评估和离线策略学习有很多出色的工作(例如,Hanna等人的工作[35],Le等人
的工作[49],Fujimoto等人的工作[26],Gottesman等人的工作[32],以及第6.3节的演讲)。
这些问题设置非常重要,因为我(和许多其他人)预计强化学习应用将会产生大量来自次优
策略的数据。
2. 探索再次成为热门话题,这是理所当然的(参见Mavrin等人的工作[57],Fatemi等人的工作[2
5],Hazan等人的工作[37],Shani等人的工作[76])。 除了离线评估(和其他一些问题),这
是强化学习中的基础问题之一,我们目前正处于一个有望取得重大进展的良好位置。
3. 一些非常好的工作继续澄清分布式强化学习[10](参见[74, 57, 67]的工作)。
4. 周五举行的面向气候变化的人工智能研讨会非常棒,参与人数众多(我参加的演讲只有站立
空间)。 我在之前的会议上也说过这个,但是:众所周知,存在着非常重要的问题,而机器
学习的工具在其当前形式下可以非常有效地解决这些问题。
5. 我真的认为我们需要在强化学习中标准化评估。并不是说我们只需要一种方法来做评估,或
者只需要一个领域,但目前评估协议的差异太大。
6. 喜欢RL for real life研讨会上的小组讨论(见第6.2.1节)
4
2 6月10日星期一:教程
开始了!我来参加PAC-Bayes教程的下半场。
2.1 教程:PAC-Bayes理论(第二部分)
演讲者是Benjamin Guedi和John Shawe-Taylor。
第一部分回顾:Shawe-Taylor和Williamson [77]对贝叶斯估计进行了PAC [86]分析(也见图1)。
之后不久,McAllester [58]提出了第一个PAC-Bayesian界限:
定理1.(McAllester [58])对于任何先验P,δ∈(0,1],我们有:
Pr
∀
Q∈H
: R
out
(Q) ≤ R
in
(Q) +
√
D
KL
(Q || P)) + ln
2
√
m
δ
2米
≥ 1 −δ, (1)
其中 H是假设空间, m是样本数量, R
out
是假设在测试数据上的风险, R
in
(h)是假设在训练数
据上的风险, P是先验概率, Q是后验概率。
PAC-Bayes:一个灵活的学习理论框架!与回归、线性分类和支持向量机有紧密联系,用于转导
学习,还可以在强化学习中使用[24]等等。
图1:贝叶斯和PAC-Bayes的区别
2.1.1 PAC-Bayes理论
问:PAC-Bayes如何推动学习?
答:首先,回顾一下:
R
out
(Q) ≤ R
in
(Q) + F (Q), (2)
或者:
未见数据上的错误 ≤样本上的错误 + 复杂度项. (3)
5
剩余86页未读,继续阅读
资源评论
绝不原创的飞龙
- 粉丝: 1w+
- 资源: 1091
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功