现代强化学习(Reinforcement Learning, RL)系统揭示了有关人类通用问题求解的一些深层规律。在那些能够低成本模拟新数据的领域,这些系统能够学习到远超人类能力的序列决策策略。现实社会中存在许多问题,其解决同样依赖这种能力,但这些问题往往处于无法低成本生成新数据的领域。在这种情境下,我们可以基于已有数据构建模拟器,但这些模拟器始终只能近似正确,并且在被查询到其训练分布之外时可能会出现严重错误。因此,我们训练智能体所处的环境与希望其最终部署的真实世界环境之间必然会存在失配(misalignment)。应对这种失配正是零样本强化学习(Zero-Shot Reinforcement Learning, Zero-Shot RL)的核心关注点——在这一问题设定中,智能体必须在完全没有实践机会的前提下,能够泛化到一个新任务或新领域。 尽管在理想化场景下实现零样本强化学习的方法已经取得了令人瞩目的进展,但若要在真实世界中复现这些成果,仍需新的研究。本文认为,要实现这一目标,至少需要应对三类约束:其一是数据质量约束:真实世界的数据集往往规模有限且同质化严重;其二是可观测性约束:在真实世界中,状态、动态和奖励通常只能被部分观测到;其三是数据可用性约束:事先获得数据的假设并不总是成立。 本文提出了一系列能够在这些约束下执行零样本强化学习的方法。通过一系列实证研究,我们揭示了现有方法的不足,并论证了所提出技术在弥补这些缺陷方面的合理性。我们相信,这些设计使我们更接近于能够部署到现实世界、解决实际问题的强化学习方法。