强化学习(Reinforcement Learning, RL)方法在模拟环境和游戏中已取得显著成果,但直到最近才开始被应用于解决现实世界的问题。这在一定程度上是因为强化学习方法本身存在不稳定性、样本效率较低,以及在现实任务中难以将奖励准确归因到长序列中的具体步骤等挑战。为应对这些问题,本论文提出了一系列方法,涵盖问题建模、表征学习、有效的奖励归因机制,以及高质量多步轨迹的可扩展构建。 为了将这些理论原则落地,我将介绍两类能够解决现实世界挑战的强化学习智能体,分别应用于两个截然不同的领域:芯片设计与语言建模。 首先,我将介绍 AlphaChip,这是一种深度强化学习方法,能够在数小时内生成超越人类水平的芯片布局,而不再需要人类耗时数周甚至数月的设计过程。AlphaChip 是最早部署于现实工程问题的强化学习方法之一,已被用于设计过去四代 Google TPU 芯片的布局,同时也被 Alphabet 内部和外部的芯片制造商广泛采用。 接下来,我将介绍 Step-Wise Reinforcement Learning(SWiRL),这是一种结合强化学习与合成数据生成的方法,可提升大型语言模型(Large Language Models, LLMs)在多步推理和工具使用方面的能力。 最后,我将提出一个用于评估基于LLM的强化学习智能体在复杂多步推理任务中性能的新数据集,并探讨该前沿领域中的若干开放问题与未来机遇。