强化学习是人工智能中的一个重要研究方向。尽管该领域具有坚实的理论基础,但它在现实世界中也取得了诸多成功应用。然而,由于强化学习训练过程复杂且对数据需求量大,其在大规模应用中的使用仍受到一定限制。为进一步提升其实用性,本文旨在探索适用于大规模场景的更高效的训练方法以及更严谨的理论分析。
首先,论文提出了一种适用于无限时域折扣强化学习表格设置(tabular setting)的新算法,这是强化学习中最基本的问题之一。此前最优的算法虽然在理论上达到了最小遗憾(optimal regret),但代价是高昂的计算与内存需求。本文提出的算法引入了全新的策略切换(policy switching)机制,在保持理论最优性的同时显著降低了计算与内存开销,并大幅减少了实际应用中常见的“冷启动”(burn-in)成本。我们还给出了该算法的理论分析,并与现有方法进行了对比,展示了其优势。
接着,论文提出了一系列关于深度强化学习的新理论成果。虽然深度神经网络在强化学习实践中取得了显著成功,但多数现有理论分析依赖于传统的大数一致律(uniform laws of large numbers),难以完整解释经验现象。为此,我们的理论进一步拉近了理论与实践之间的差距,表明深度强化学习能够自适应马尔可夫决策过程(MDP)中的内在低维结构。我们针对多个重要任务(如离策略评估、偏好学习与 actor-critic 策略梯度优化)给出了更紧致的理论界限。
最后,论文提出了一种新颖的人类反馈强化学习算法,面向大语言模型(LLM)的后训练阶段。以往研究中存在一个两难困境:经验上流行的算法虽然实用,但缺乏收敛保证,尤其在数据覆盖稀疏时容易失败;而理论驱动的方法虽具备可证明的收敛性,但在大规模应用中效率低下。为此,本文提出了首个既具备理论收敛性又可扩展至大语言模型后训练的算法,灵感来自“平均悲观”(on-average pessimism)技术。我们还提供了该算法的理论收敛分析,并在大语言模型上进行了实证实验验证其有效性。