ICML2019笔记.pdf资源-CSDN文库

需积分: 5 198 浏览量 2024-02-03 12:12:15 上传评论收藏 1.65MB PDF 举报

资源推荐

资源详情

资源评论

ICML 2019 会议笔记

美国加利福尼亚州长滩

大卫·阿贝尔

∗

david_abel@brown.edu

2019年6月

1 会议亮点 4

2 6月10日星期一：教程 5

2.1 教程：PAC-Bayes理论（第二部分） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 PAC-Bayes理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 PAC-Bayes和任务意识 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 教程：元学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1 两种视角看待元学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2 元学习算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.3 元强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.4 元学习中的挑战和前沿 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 6月11日星期二：主会议 19

3.1 最佳论文报告：挑战学习解耦表示 19

3.2 投稿演讲：深度强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.1 DQN和时间离散化 [82] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.2 非线性分布梯度 TD 学习 [67] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.3 使用发散校正组合熵策略 [38] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.4 TibGM: 一种用于强化学习的图模型方法 [2] . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2.5 多智能体对抗逆强化学习 [93] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2.6 连续强化学习的策略整合 [44] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2.7 无探索的深度强化学习离线策略评估 [26] . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2.8 随机专家蒸馏 [90] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2.9 重新审视 Softmax Bellman 操作符 [79] . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.3 贡献演讲：强化学习理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.3.1 用于高效探索的分布式强化学习 [57] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3.2 通过重要性采样的乐观策略优化 [62] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3.3 神经逻辑强化学习 [41] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

∗

http://david-abel.github.io

3.3.4 在 MDP 中学习协作 [68] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3.5 预测-校正策略优化 [15] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.3.6 通过元逆强化学习学习意图先验 [91] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3.7 DeepMDP: 学习RL的后期空间模型 [30] . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3.8 重要性采样策略评估 [35] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3.9 从学习者中学习 [40] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3.10 在时间尺度上分离价值函数 [72] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3.11 在RL中学习动作表示 [14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3.12 贝叶斯对抗风险最小化 [55] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3.13 每个决策选项计数 [36] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.14 RL中问题相关的遗憾界限 [94] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.15 正则化MDP的理论 [29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.3.16 通过最小化覆盖时间来探索选项 [43] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.3.17 策略证书: 迈向可追溯的RL [20] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.3.18 行动鲁棒强化学习 [83] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.3.19 值函数多面体 [19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6月12日星期三：主会议 38

4.1 投稿演讲：多任务和终身学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1.1 领域无关学习与分离表示 [64] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1.2 强化学习中的值函数组合 [87] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1.3 CAVIA: 快速上下文适应通过元学习 [95] . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1.4 基于梯度的元学习 [45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.1.5 迈向理解知识蒸馏 [65] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.1.6 可迁移的对抗训练 [53] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.2 贡献演讲：强化学习理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2.1 仅通过观察进行可证明高效的模仿学习 [80] . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2.2 死胡同和安全探索 [25] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2.3 分布式强化学习中的统计和样本 [74] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2.4 基于Hessian的策略梯度 [78] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2.5 最大熵探索 [37] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.2.6 结合多个模型进行离线策略评估 [32] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.2.7 使用线性特征的参数化 Q学习的样本最优 [92] . . . . . . . . . . . . . . . . . . . . . . . 47

4.2.8 策略搜索中的样本迁移 [84] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2.9 探索意识强化学习再探 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2.10 基于核的鲁棒MDP的强化学习 [51] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6月13日星期四：主会议 51

5.1 贡献演讲：强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.1.1 在约束条件下的批量策略学习 [49] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.1.2 量化强化学习中的泛化能力 [17] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.1.3 从像素中学习潜在动态规划 [34] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.1.4 近似策略迭代的投影 [3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.1.5 无意识学习结构化决策问题 [39] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.1.6 校准的基于模型的深度强化学习 [56] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.1.7 可配置连续环境中的强化学习 [59] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

剩余86页未读，继续阅读

评论收藏

内容反馈

绝不原创的飞龙

粉丝: 1w+
资源: 1091

ICML 2019 笔记.pdf

最新资源

ICML 2019 笔记.pdf

ICML 2018 笔记.pdf

ICML2019.zip

KakadeLangford-icml2002.pdf

多智能体-DM-ICML-ACAI.pdf

ICML2019 (2).zip

藏经阁-蚂蚁金服人工智能部研究员ICML贡献论文02.pdf

藏经阁-蚂蚁金服人工智能部研究员ICML贡献论文03.pdf

藏经阁-蚂蚁金服人工智能部研究员ICML贡献论文05.pdf

藏经阁-蚂蚁金服人工智能部研究员ICML贡献论文07.pdf

藏经阁-蚂蚁金服人工智能部研究员ICML贡献论文06.pdf

藏经阁-蚂蚁金服人工智能部研究员ICML贡献论文04.pdf

ICML2023_Tutorial.pdf

ICML2019 (6).zip

ICML 2019年 会议文章目录 （含论文下载链接）

ICML2019 (5).zip

A Little Book of Python for Multivariate Analysis 等 28 本

蚂蚁金服人工智能部研究员ICML贡献论文07.pdf

ICML19-attention.pdf

ICML2019 (4).zip

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

2023泛娱乐社交出海手册-ZEGO即构科技

4个亲测好用的ChatGPT4渠道

HAI-2024斯坦福AI指数报告（中文译版）.pdf

学术海报模板+论文科研+研究生

最新资源

ICML 2019年会议文章目录（含论文下载链接）