【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning - 专知VIP

会员服务 ·

22

强化学习 · 元学习 · 博士论文 · 加州大学伯克利分校 (UC Berkeley) ·

2022 年 3 月 6 日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

构建能够有效解决各种问题的通用RL算法需要将正确的结构和表示编码到我们的模型中。我们泛化能力的一个关键组成部分是我们开发世界内部模型的能力，该模型可以用于稳健的预测和有效的规划。在本论文中，我们讨论了如何利用表示学习来学习更好的物理场景预测模型，并使agent能够在基于模型的RL框架下通过规划学习到的模型来推广到新的任务。我们将介绍两种能够实现良好泛化的抽象:对象级表示形式的状态抽象和分层RL的技能表示形式的时间抽象。通过将这些抽象概念整合到我们的模型中，我们可以在长期、多阶段的问题上实现高效的学习和组合推广。我们还讨论了元学习在自动学习一般RL算法的正确结构中的作用。利用大规模的基于进化的计算，我们可以学习通用的RL算法，这些算法在各种任务中具有更好的样本效率和最终性能。最后，我们将介绍如何使用这些内部模型来计算RL目标本身，并在不设计奖励函数的情况下训练具有复杂行为的一般RL代理。

成为VIP会员查看完整内容

45

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

斯坦福大学最新【强化学习】2022课程，含ppt

斯坦福大学最新【强化学习】2022课程，含ppt

专知会员服务

133+阅读 · 2022年2月27日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

强化学习教父Richard Sutton新论文探索决策智能体的通用模型：寻找跨学科共性

强化学习教父Richard Sutton新论文探索决策智能体的通用模型：寻找跨学科共性

机器之心

1+阅读 · 2022年3月2日

Nature Method|FIT模型从老鼠数据预测人类疾病基因

Nature Method|FIT模型从老鼠数据预测人类疾病基因

GenomicAI

0+阅读 · 2022年2月14日

Pathdreamer：室内导航的世界模型

Pathdreamer：室内导航的世界模型

TensorFlow

3+阅读 · 2021年10月22日

元学习—Meta Learning的兴起

元学习—Meta Learning的兴起

专知

44+阅读 · 2019年10月19日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于神经动态优化的一类伪凸优化问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Network Bandwidth Variation-Adapted State Transfer for Geo-Replicated State Machines and its Application to Dynamic Replica Replacement

Arxiv

0+阅读 · 2022年4月19日

Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models

Arxiv

1+阅读 · 2022年4月18日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

VIP会员

相关主题

加州大学伯克利分校 (UC Berkeley)

相关VIP内容

斯坦福大学最新【强化学习】2022课程，含ppt

斯坦福大学最新【强化学习】2022课程，含ppt

专知会员服务

133+阅读 · 2022年2月27日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

强化学习教父Richard Sutton新论文探索决策智能体的通用模型：寻找跨学科共性

强化学习教父Richard Sutton新论文探索决策智能体的通用模型：寻找跨学科共性

机器之心

1+阅读 · 2022年3月2日

Nature Method|FIT模型从老鼠数据预测人类疾病基因

Nature Method|FIT模型从老鼠数据预测人类疾病基因

GenomicAI

0+阅读 · 2022年2月14日

Pathdreamer：室内导航的世界模型

Pathdreamer：室内导航的世界模型

TensorFlow

3+阅读 · 2021年10月22日

元学习—Meta Learning的兴起

元学习—Meta Learning的兴起

专知

44+阅读 · 2019年10月19日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于神经动态优化的一类伪凸优化问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

Network Bandwidth Variation-Adapted State Transfer for Geo-Replicated State Machines and its Application to Dynamic Replica Replacement

Arxiv

0+阅读 · 2022年4月19日

Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models

Arxiv

1+阅读 · 2022年4月18日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

微信扫码咨询专知VIP会员