经典的监督学习范式通常假设训练数据样本是从目标分布中独立抽取的。然而,现实世界中的情景常常违背这一假设,数据可能存在时间相关性、动态演化,或源于策略性交互。在这些场景下进行学习,无论从理论还是实践角度,往往都显著更加困难。 近年来,强化学习(Reinforcement Learning, RL)的进展表明,可以训练出能够在可能结果数量庞大的环境中运行并具备泛化能力的智能体。然而,运行 RL 算法仍面临若干挑战:这些方法依赖于通过与动态环境的交互来收集大量“探索”数据。这种主动式数据收集在实践中往往代价高昂,错误的代价可能非常大(例如涉及人类交互的场景),而且所收集的数据难以重复利用。缓解这些问题需要开发新的 RL 框架。 在本论文中,我们提出了一种替代性学习范式的算法与分析,该范式旨在利用示范者生成的静态数据集来训练策略。该范式拓展了 RL 的适用性,使其能够解决那些已有历史数据集或可以通过特定领域方法收集数据集的决策问题,这些数据集可被无限次复用。它还将现代监督与无监督学习方法所具备的可扩展性与可靠性优势引入 RL。话虽如此,要实例化这一范式仍然具有挑战,因为这需要调和从静态数据集学习(固定分布)与 RL 的交互性本质之间的矛盾。本论文的重要部分正是致力于回答一个核心问题:放弃与环境交互的能力,需要付出多大代价? 模仿学习(Imitation Learning, IL)技术已经在多个领域得到应用,例如在 AlphaGo [86] 等博弈智能体中的策略初始化,以及近年来大语言模型(LLMs)[16] 的监督微调(SFT)中作为关键的训练骨干。所有这些领域的主要挑战在于如何获得规模足够大、具有多样性且高质量的示范数据集。虽然更多的数据通常带来更好的性能,但专家数据的收集往往代价高昂。在机器人与控制领域,获取遥操作或人工引导的轨迹往往需要专用硬件(如动作捕捉系统或力反馈设备)和精细校准,从而限制了数据集收集的规模 [4, 78]。在自动驾驶中,关键的“极端案例”场景(如特殊天气下的碰撞规避)本质上十分稀有,但对安全至关重要;无论是在仿真还是实际道路中收集这些数据,都需要耗费大量时间与成本 [22, 23]。另一方面,在训练大语言模型时,微调依赖人工标注数据,而这类数据难以并行化,且标注代价极高 [89]。 因此,理解如何最优地利用现有数据集,以及如何利用环境与示范者的有利特性,就显得尤为重要。本论文旨在通过理论视角来研究模仿学习,从而建立对这些问题的理解。我们将提出一个统计学习框架,并分析在不同反馈模型下算法可达到的最优误差界。在此基础上,我们将扩展这些算法洞见,利用现代函数逼近器所具备的表达能力与表示能力,开发出高性能、可实用的算法。在此过程中,我们还将对模仿学习问题的整体格局提供多方面的洞察,并对实践中已成功部署的算法(如行为克隆 Behavior Cloning [65, 74] 与 GAIL [44])进行统一分析,并在此基础上给出基于原理的改进。
本论文除附录外共分为七章,每章都针对马尔可夫决策过程(MDP)框架下的模仿学习问题的不同方面: * 第 1 章:介绍模仿学习的基础。在回顾标准的分幕式马尔可夫决策过程模型(1.1 节)后,定义模仿学习问题(1.2 节),并引入一个将贯穿全论文分析的统计框架(1.3 节)。 * 第 2 章:聚焦表格型 MDP 下的模仿学习。介绍行为克隆(BC)算法(2.1 节),推导最优模仿误差的最坏情形统计下界,展示 BC 的最优性(2.2 节),并扩展至随机专家的情形(2.3 节)。然后研究已知转移动态的情形,并提出 Mimic-MD 算法(2.4 节)。 * 第 3 章:从价值函数估计的角度深入理解 Mimic-MD 算法。提出并动机化专家价值估计问题(3.2 节),并通过该视角重新诠释 Mimic-MD,从而证明其统计最优性(3.3 节)。 * 第 4 章:分析由近乎最优专家生成的示范数据情形。重新考察第 2.2 节中的若干困难实例(4.1 节),分析模仿专家在到达单一目标状态时的行为(4.2 节),并提出关于最优专家情形的一些猜想(4.3 节)。 * 第 5 章:研究具备主动交互的模仿学习场景。在此框架下,学习者可以自适应地向专家查询以减少不确定性并提升性能。我们将证明,在可恢复错误的 MDP 中,交互性带来可证明的益处。 * 第 6 章:基于第 2、3 章的洞见,开发一个实用算法。首先分析实践中常用方法的次优性(6.1 节),提出重放估计器(Replay Estimator, 6.2 节),并在 6.3 节给出完整的算法方案,附带实证结果(6.4 节)。 * 第 7 章:扩展至带函数逼近的模仿学习场景,超越表格型 MDP。分析线性表示设定(7.1 节)、已知转移设定(7.2 节),解释主要的理论保证(7.3 节),并讨论开放问题(7.4 节)。
各章节循序渐进,最终形成一套连贯的理论与方法论,用于在多种场景与抽象下实现有效的模仿学习。