【普林斯顿博士论文】迈向原则化的强化学习 - 专知VIP

会员服务 ·

2

博士论文 · 强化学习 ·

【普林斯顿博士论文】迈向原则化的强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习（Reinforcement Learning, RL）是一种主要的学习范式，专用于求解序贯决策问题，已在多个领域取得突破性进展，从围棋博弈到核聚变控制，再到使大型语言模型对齐人类意图。在本论文中，我们提出了若干具有理论保障的原则化强化学习算法。首先，我们研究多智能体强化学习（multi-agent RL），即多个决策者在马尔可夫（随机）博弈的标准框架下进行交互，每个智能体可能拥有不同的奖励函数。我们为学习马尔可夫博弈中各种类型的均衡解构建了一整套具备样本效率的算法，尤其适用于需要探索的环境。其次，我们考虑部分可观测强化学习（partially observable RL），即决策者对系统状态的信息不完备。与传统观点认为部分可观测强化学习本质上不可求解不同，我们识别出一个简单且实用的条件——可观测条件（observable condition），在该条件下，一类丰富的部分可观测模型可以在样本效率上实现可解性。这些模型包括部分可观测马尔可夫决策过程（POMDP）、部分可观测马尔可夫博弈（POMG），以及预测状态表示（predictive state representations）。最后，我们转向函数逼近下的强化学习，这是当前解决大规模状态-动作空间决策任务最广泛使用的方法论。我们提出了两个简单且通用的算法，分别将经典的拟合Q迭代（Fitted Q-Iteration）与最大似然估计（Maximum Likelihood Estimation）结合“面对不确定性的乐观性”原则，从而优雅地统一解决了大多数函数逼近场景中的强化学习问题。

成为VIP会员查看完整内容

2

相关内容

博士论文

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【阿姆斯特丹博士论文】具有广义对称性的机器学习

【阿姆斯特丹博士论文】具有广义对称性的机器学习

专知会员服务

12+阅读 · 6月6日

【阿姆斯特丹博士论文】基于生成式神经网络的表示学习

【阿姆斯特丹博士论文】基于生成式神经网络的表示学习

专知会员服务

25+阅读 · 4月6日

【HKUST博士论文】复杂任务下的元学习

【HKUST博士论文】复杂任务下的元学习

专知会员服务

23+阅读 · 1月14日

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

专知会员服务

22+阅读 · 2024年11月1日

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

专知会员服务

26+阅读 · 2024年9月29日

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

专知会员服务

16+阅读 · 2024年5月1日

【博士论文】连接状态和行动:迈向持续强化学习

【博士论文】连接状态和行动:迈向持续强化学习

专知会员服务

24+阅读 · 2024年1月31日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

22+阅读 · 2023年8月29日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

46+阅读 · 2022年9月22日

基于模型的强化学习综述

基于模型的强化学习综述

专知

40+阅读 · 2022年7月13日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

56+阅读 · 2022年4月30日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

51+阅读 · 2022年4月25日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

17+阅读 · 2019年12月31日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

31+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

22+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

470+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

77+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

170+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【阿姆斯特丹博士论文】具有广义对称性的机器学习

【阿姆斯特丹博士论文】具有广义对称性的机器学习

专知会员服务

12+阅读 · 6月6日

【阿姆斯特丹博士论文】基于生成式神经网络的表示学习

【阿姆斯特丹博士论文】基于生成式神经网络的表示学习

专知会员服务

25+阅读 · 4月6日

【HKUST博士论文】复杂任务下的元学习

【HKUST博士论文】复杂任务下的元学习

专知会员服务

23+阅读 · 1月14日

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

专知会员服务

22+阅读 · 2024年11月1日

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

专知会员服务

26+阅读 · 2024年9月29日

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

专知会员服务

16+阅读 · 2024年5月1日

【博士论文】连接状态和行动:迈向持续强化学习

【博士论文】连接状态和行动:迈向持续强化学习

专知会员服务

24+阅读 · 2024年1月31日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

22+阅读 · 2023年8月29日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

46+阅读 · 2022年9月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄罗斯、人工智能与虚假信息战的未来》英智库最新报告

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

中文版2500字 | 美陆军“项目融合”计划：推动大规模作战行动中的目标定位革新（附原文）

中文版9300字 | 《未来战场图景：智能无人技术驱动陆战领域》

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

40+阅读 · 2022年7月13日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

56+阅读 · 2022年4月30日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

51+阅读 · 2022年4月25日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

17+阅读 · 2019年12月31日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

31+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

22+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

470+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

77+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

170+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员