强化学习(Reinforcement Learning, RL)是一种主要的学习范式,专用于求解序贯决策问题,已在多个领域取得突破性进展,从围棋博弈到核聚变控制,再到使大型语言模型对齐人类意图。在本论文中,我们提出了若干具有理论保障的原则化强化学习算法。 首先,我们研究多智能体强化学习(multi-agent RL),即多个决策者在马尔可夫(随机)博弈的标准框架下进行交互,每个智能体可能拥有不同的奖励函数。我们为学习马尔可夫博弈中各种类型的均衡解构建了一整套具备样本效率的算法,尤其适用于需要探索的环境。 其次,我们考虑部分可观测强化学习(partially observable RL),即决策者对系统状态的信息不完备。与传统观点认为部分可观测强化学习本质上不可求解不同,我们识别出一个简单且实用的条件——可观测条件(observable condition),在该条件下,一类丰富的部分可观测模型可以在样本效率上实现可解性。这些模型包括部分可观测马尔可夫决策过程(POMDP)、部分可观测马尔可夫博弈(POMG),以及预测状态表示(predictive state representations)。 最后,我们转向函数逼近下的强化学习,这是当前解决大规模状态-动作空间决策任务最广泛使用的方法论。我们提出了两个简单且通用的算法,分别将经典的拟合Q迭代(Fitted Q-Iteration)与最大似然估计(Maximum Likelihood Estimation)结合“面对不确定性的乐观性”原则,从而优雅地统一解决了大多数函数逼近场景中的强化学习问题。

成为VIP会员查看完整内容
2

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【HKUST博士论文】复杂任务下的元学习
专知会员服务
23+阅读 · 1月14日
【阿姆斯特丹博士论文】缓解多任务学习中的偏差
专知会员服务
22+阅读 · 2024年11月1日
【博士论文】连接状态和行动:迈向持续强化学习
专知会员服务
24+阅读 · 2024年1月31日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
基于模型的强化学习综述
专知
40+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
470+阅读 · 2023年3月31日
Arxiv
77+阅读 · 2023年3月26日
Arxiv
170+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关资讯
基于模型的强化学习综述
专知
40+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
相关基金
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员