【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods - 专知VIP

会员服务 ·

4

有监督学习 · 机器学习 · 模仿学习 · 深度学习 · 多伦多大学 (University of Toronto) ·

2019 年 11 月 11 日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目： A Divergence Minimization Perspective on Imitation Learning Methods

论文摘要： 在许多情况下，希望通过专家演示的学习或引导来学习决策和控制策略。这种模仿学习（IL）框架下最常见的方法是行为克隆（BC）和逆强化学习（IRL）。IRL的最新方法已经证明了可以通过访问非常有限的一组演示来学习有效策略的能力，一种情况BC方法经常失败。不幸的是，由于变化的多种因素，直接比较这些方法并不能提供足够的直觉来理解这种性能差异。在这项工作中，我们提出了基于散度最小化的IL算法的统一概率观点。我们提出了f-MAX，这是AIRL的一种泛化概括，它是一种最新的IRL方法。 f-MAX使我们能够关联以前的IRL方法，例如GAIL和AIRL，并了解它们的算法特性。通过散度最小化的镜头，我们可以找出BC和成功的IRL方法之间的差异，并在模拟的高维连续控制域上经验地评估这些细微差别。我们的发现最终确定了IRL的州际匹配目标是其卓越绩效的最大贡献。最后，我们将对IL方法的新理解应用于状态-边际匹配的问题，其中我们证明了在模拟推臂环境中，我们可以使用简单的手动指定状态分布来教给代理各种行为，而无需奖励函数或专家。

论文作者： Richard Zemel ，Vector人工智能研究所的联合创始人兼研究总监，多伦多大学机器学习工业研究主席，加拿大高级研究所高级研究员，研究兴趣包括：图像和文本的生成模型，基于图的机器学习，少量数据学习，词典，单词列表和公平性。

github链接： https://github.com/KamyarGh/rl_swiss/blob/master/reproducing/fmax_paper.md

成为VIP会员查看完整内容

模仿学习.pdf

24

相关内容

有监督学习

有监督学习

用已知某种或某些特性的样本作为训练集，以建立一个数学模型(如模式识别中的判别模型，人工神经网络法中的权重模型等)，再用已建立的模型来预测未知样本，此种方法称为有监督学习。是最常见的机器学习方法。

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

91+阅读 · 2020年7月4日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

84+阅读 · 2020年2月18日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

专知会员服务

30+阅读 · 2019年12月10日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

175+阅读 · 2019年12月7日

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

机器之心

11+阅读 · 2019年11月20日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

顶会抄顶会？SIGIR论文作者回应质疑，ACM主席已介入

顶会抄顶会？SIGIR论文作者回应质疑，ACM主席已介入

机器之心

5+阅读 · 2019年11月8日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

Ian Goodfellow：你的GAN水平我来打分

Ian Goodfellow：你的GAN水平我来打分

机器之心

4+阅读 · 2018年8月17日

ICML2018 模仿学习教程

ICML2018 模仿学习教程

专知

6+阅读 · 2018年7月14日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

蒙特卡罗方法(Monte Carlo Methods)

蒙特卡罗方法(Monte Carlo Methods)

数据挖掘入门与实战

6+阅读 · 2018年4月22日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Arxiv

8+阅读 · 2020年4月13日

Meta-Learning with Implicit Gradients

Meta-Learning with Implicit Gradients

Arxiv

13+阅读 · 2019年9月10日

Jointly Optimizing Diversity and Relevance in Neural Response Generation

Arxiv

4+阅读 · 2019年2月28日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

A Study on Overfitting in Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年4月20日

Recent Trends in Deep Learning Based Natural Language Processing

Arxiv

7+阅读 · 2018年2月20日

VIP会员

相关主题

有监督学习

多伦多大学 (University of Toronto)

相关VIP内容

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

91+阅读 · 2020年7月4日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

84+阅读 · 2020年2月18日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

专知会员服务

30+阅读 · 2019年12月10日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

175+阅读 · 2019年12月7日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】移动计算摄影的神经场表示

大语言模型遇见法律人工智能：综述

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

美军用无人地面战车发展：现代战争中超越弹药的多元应用

相关资讯

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

机器之心

11+阅读 · 2019年11月20日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

顶会抄顶会？SIGIR论文作者回应质疑，ACM主席已介入

顶会抄顶会？SIGIR论文作者回应质疑，ACM主席已介入

机器之心

5+阅读 · 2019年11月8日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

Ian Goodfellow：你的GAN水平我来打分

Ian Goodfellow：你的GAN水平我来打分

机器之心

4+阅读 · 2018年8月17日

ICML2018 模仿学习教程

ICML2018 模仿学习教程

专知

6+阅读 · 2018年7月14日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

蒙特卡罗方法(Monte Carlo Methods)

蒙特卡罗方法(Monte Carlo Methods)

数据挖掘入门与实战

6+阅读 · 2018年4月22日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation

Arxiv

8+阅读 · 2020年4月13日

Meta-Learning with Implicit Gradients

Meta-Learning with Implicit Gradients

Arxiv

13+阅读 · 2019年9月10日

Jointly Optimizing Diversity and Relevance in Neural Response Generation

Arxiv

4+阅读 · 2019年2月28日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

A Study on Overfitting in Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年4月20日

Recent Trends in Deep Learning Based Natural Language Processing

Arxiv

7+阅读 · 2018年2月20日

微信扫码咨询专知VIP会员