【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf - 专知

会员服务 ·

0

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

2022 年 9 月 14 日 专知

利用深度神经网络进行机器学习的最新进展，在从大型数据集学习方面取得了重大成功。然而，这些成功主要集中在计算机视觉和自然语言处理方面，而在序列决策问题方面的进展仍然有限。强化学习(RL)方法就是为了解决这些问题而设计的，但相比之下，它们很难扩展到许多现实世界的应用中，因为它们依赖于成本高昂且可能不安全的在线试错，而且需要从头开始逐个学习每个技能的低效过程。本文将介绍设计RL智能体的工作，这些智能体直接从离线数据中训练，能够掌握多种技能，以解决上述挑战。

在本文的第一部分中，我们首先介绍了一种算法，从离线数据集中学习高性能策略，并通过使用学习到的动力学模型生成的推出来扩展离线数据，提高离线强化学习智能体的泛化能力。然后，我们将该方法扩展到高维观测空间，如图像，并表明该方法使现实世界的机器人系统能够执行操作任务。在论文的第二部分，为了避免在之前的强化学习工作中从头开始学习每个任务的问题，同时保持离线学习的好处，讨论了如何使强化学习智能体通过跨任务共享数据从不同的离线数据中学习各种任务。此外，我们表明，共享数据需要标记来自其他任务的数据的奖励，这依赖于繁重的奖励工程，也是劳动密集型的。为了解决这些问题，我们描述了如何有效地利用离线RL中的各种未标记数据，绕过奖励标记的挑战。最后，我们列出了未来的研究方向，如利用异构无标签离线数据集的有效预训练方案、离线预训练后的在线微调以及离线RL的离线超参数选择。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“R17” 就可以获取《【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

4

相关内容

多功能

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

专知会员服务

44+阅读 · 2022年11月10日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

62+阅读 · 2022年11月9日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

42+阅读 · 2022年9月14日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知会员服务

120+阅读 · 2022年9月11日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

99+阅读 · 2022年9月1日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

65+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

82+阅读 · 2022年7月11日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

89+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

124+阅读 · 2020年8月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

75+阅读 · 2019年10月27日

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

专知

1+阅读 · 2022年11月10日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

9+阅读 · 2022年10月15日

【干货书】强化学习Python真实数据与实例应用，110页pdf

【干货书】强化学习Python真实数据与实例应用，110页pdf

专知

9+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

8+阅读 · 2022年10月6日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

18+阅读 · 2022年9月11日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

4+阅读 · 2022年9月7日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知

1+阅读 · 2022年9月2日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

3+阅读 · 2022年9月1日

【斯坦福博士论文】用于系统设计的图算法，130页pdf

【斯坦福博士论文】用于系统设计的图算法，130页pdf

专知

2+阅读 · 2022年8月22日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

14+阅读 · 2022年7月11日

天文大数据中时序图像子集高效检索方法与系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

5+阅读 · 2015年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多糖基长循环脂质体的构建与载体的多功能集成

国家自然科学基金

0+阅读 · 2012年12月31日

不确定多智能体系统一致性的分布式自适应控制

国家自然科学基金

6+阅读 · 2012年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

数据驱动的双足机器人步态自学习控制方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

新型介孔纳米材料在直接电化学生物传感器中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

44+阅读 · 2009年12月31日

ModelDiff: A Framework for Comparing Learning Algorithms

Arxiv

0+阅读 · 2022年11月22日

Differentiating and Integrating ZX Diagrams with Applications to Quantum Machine Learning

Arxiv

0+阅读 · 2022年11月21日

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines

Arxiv

0+阅读 · 2022年11月20日

Bayesian Multi-Task Learning MPC for Robotic Mobile Manipulation

Arxiv

0+阅读 · 2022年11月18日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

Temporal Graph Networks for Deep Learning on Dynamic Graphs

Arxiv

36+阅读 · 2020年10月9日

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

19+阅读 · 2020年3月26日

Dynamic Graph Neural Networks

Arxiv

23+阅读 · 2018年10月24日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

15+阅读 · 2018年6月27日

Low-Shot Learning from Imaginary Data

Arxiv

15+阅读 · 2018年4月3日

VIP会员

相关主题

相关VIP内容

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

专知会员服务

44+阅读 · 2022年11月10日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

62+阅读 · 2022年11月9日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

42+阅读 · 2022年9月14日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知会员服务

120+阅读 · 2022年9月11日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

99+阅读 · 2022年9月1日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

65+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

82+阅读 · 2022年7月11日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

89+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

124+阅读 · 2020年8月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

75+阅读 · 2019年10月27日

热门VIP内容

相关资讯

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

专知

1+阅读 · 2022年11月10日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

9+阅读 · 2022年10月15日

【干货书】强化学习Python真实数据与实例应用，110页pdf

【干货书】强化学习Python真实数据与实例应用，110页pdf

专知

9+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

8+阅读 · 2022年10月6日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

18+阅读 · 2022年9月11日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

4+阅读 · 2022年9月7日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知

1+阅读 · 2022年9月2日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

3+阅读 · 2022年9月1日

【斯坦福博士论文】用于系统设计的图算法，130页pdf

【斯坦福博士论文】用于系统设计的图算法，130页pdf

专知

2+阅读 · 2022年8月22日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

14+阅读 · 2022年7月11日

相关基金

天文大数据中时序图像子集高效检索方法与系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

5+阅读 · 2015年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多糖基长循环脂质体的构建与载体的多功能集成

国家自然科学基金

0+阅读 · 2012年12月31日

不确定多智能体系统一致性的分布式自适应控制

国家自然科学基金

6+阅读 · 2012年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

数据驱动的双足机器人步态自学习控制方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

新型介孔纳米材料在直接电化学生物传感器中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

44+阅读 · 2009年12月31日

相关论文

ModelDiff: A Framework for Comparing Learning Algorithms

Arxiv

0+阅读 · 2022年11月22日

Differentiating and Integrating ZX Diagrams with Applications to Quantum Machine Learning

Arxiv

0+阅读 · 2022年11月21日

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines

Arxiv

0+阅读 · 2022年11月20日

Bayesian Multi-Task Learning MPC for Robotic Mobile Manipulation

Arxiv

0+阅读 · 2022年11月18日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

Temporal Graph Networks for Deep Learning on Dynamic Graphs

Arxiv

36+阅读 · 2020年10月9日

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

19+阅读 · 2020年3月26日

Dynamic Graph Neural Networks

Arxiv

23+阅读 · 2018年10月24日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

15+阅读 · 2018年6月27日

Low-Shot Learning from Imaginary Data

Arxiv

15+阅读 · 2018年4月3日

大家都在搜

大型语言模型

伯克利博士论文

图与推荐指南针

李清照词作

关系图注意力网络-Relational Graph Attention Networks

微信扫码咨询专知VIP会员