强化学习(Reinforcement Learning, RL)是一种主要的学习范式,专用于求解序贯决策问题,已在多个领域取得突破性进展,从围棋博弈到核聚变控制,再到使大型语言模型对齐人类意图。在本论文中,我们提出了若干具有理论保障的原则化强化学习算法。 首先,我们研究多智能体强化学习(multi-agent RL),即多个决策者在马尔可夫(随机)博弈的标准框架下进行交互,每个智能体可能拥有不同的奖励函数。我们为学习马尔可夫博弈中各种类型的均衡解构建了一整套具备样本效率的算法,尤其适用于需要探索的环境。 其次,我们考虑部分可观测强化学习(partially observable RL),即决策者对系统状态的信息不完备。与传统观点认为部分可观测强化学习本质上不可求解不同,我们识别出一个简单且实用的条件——可观测条件(observable condition),在该条件下,一类丰富的部分可观测模型可以在样本效率上实现可解性。这些模型包括部分可观测马尔可夫决策过程(POMDP)、部分可观测马尔可夫博弈(POMG),以及预测状态表示(predictive state representations)。 最后,我们转向函数逼近下的强化学习,这是当前解决大规模状态-动作空间决策任务最广泛使用的方法论。我们提出了两个简单且通用的算法,分别将经典的拟合Q迭代(Fitted Q-Iteration)与最大似然估计(Maximum Likelihood Estimation)结合“面对不确定性的乐观性”原则,从而优雅地统一解决了大多数函数逼近场景中的强化学习问题。