大型语言模型增强强化学习综述:概念、分类和方法

凭借广泛的预训练知识和高级通用能力，大型语言模型（LLMs）作为增强强化学习（RL）的一个有希望的途径出现，在多任务学习、样本效率和任务规划等方面显示出其潜力。在这篇综述中，我们提供了一个关于LLM增强RL现有文献的全面回顾，并总结了与传统RL方法相比的特点，旨在明确研究范围和未来研究的方向。利用经典的智能体-环境交互范式，我们提出了一个结构化的分类法，以系统地分类LLMs在RL中的功能，包括四个角色：信息处理器、奖励设计师、决策者和生成器。另外，对于每个角色，我们总结了方法论，分析了被缓解的具体RL挑战，并提供了对未来方向的洞见。最后，讨论了LLM增强RL的潜在应用、前瞻性机会和挑战。

强化学习（RL）是一种强大的学习范式，专注于控制和决策制定，其中智能体通过与环境的尝试和错误交互学习优化指定目标。深度学习在自然语言处理（NLP）[1] 和计算机视觉（CV）[2] 等经典领域的最近成功，促成了深度强化学习的兴起，深度强化学习将RL与高容量深度神经网络近似器结合起来，使智能体能够在复杂环境中做出决策。在游戏领域，深度强化学习算法在多种街机[3]、[4]、实时策略[5]、[6]、棋盘[7]、[8]以及非完全信息游戏[9]、[10]中实现了超越人类的决策能力。目前，强化学习的应用已扩展到机器人[11]、自动驾驶车辆[12]、医疗保健[13]和对话系统[14]等领域的现实世界任务中。

然而，当在涉及语言和视觉信息的现实世界应用中应用深度强化学习算法时，面临着重大挑战，因为智能体必须同时学习特征和控制策略。为了减轻视觉特征学习的负担，参考文献[15]将表示学习与强化学习解耦。为了处理涉及语言的任务，一项综述[16]呼吁在RL中潜在使用NLP技术。尽管如此，当时语言模型的能力有限，以下四个挑战仍未得到解决：1）样本效率低：深度强化学习智能体需要与环境进行大量交互才能学习有效策略，这在数据收集昂贵或风险较高的场景中变得不切实际[17]、[18]、[19]。2）奖励函数设计：策略学习的性能在很大程度上取决于奖励函数的设计[20]。尽管奖励函数的基础性重要，但它们被认为难以设计[21]、[22]，因为它们需要对任务有深入了解，且经常需要手动尝试和错误[23]。3）泛化：深度强化学习智能体的泛化仍然令人望而却步，因为它们经常难以适应新的、未见过的环境，限制了智能体在动态真实世界设置中的适用性[24]、[25]。4）自然语言理解：深度强化学习在自然语言处理和理解场景中面临困难，人类语言的细微差别和复杂性带来了独特的挑战，这些挑战未被当前的RL方法充分解决[26]。

大型语言模型（LLMs）的近期出现标志着自然语言处理领域的重要里程碑，并在许多实际应用中展现了强大的能力，如医药[27]、化学[28]以及机器人的体现控制[29]。与小型语言模型相比，LLMs拥有小型语言模型所不具备的突现能力[30]，例如上下文学习[31]、推理能力[32]等。此外，借助庞大的训练数据，预训练的LLMs装备了广泛的世界知识[33]。利用这些能力，语言模型的应用已从语言建模转变为任务解决，范围从基本的文本分类和情感分析到复杂的高级任务规划[34]和决策制定[35]、[36]、[37]。

随着LLMs的突现能力，最近LLMs解决RL固有挑战的潜力开始受到关注[38]、[39]。LLMs尤其在自然语言理解、推理和任务规划方面的能力，提供了解决上述RL问题的独特方法。对于样本效率低的问题，参考文献[40]提出了一个框架，其中LLMs可以用来通过提供丰富、上下文信息丰富的预测或建议来提高RL智能体的样本效率，从而减少对广泛环境交互的需求。对于奖励函数设计，LLMs可以帮助构建更细致和有效的奖励函数，通过提供对复杂场景更深入的理解来增强学习过程[41]。对于泛化，参考文献[42]提出了一个框架，该框架利用基于语言的反馈来提高RL策略在未见环境中的泛化。对于自然语言理解，Pang等[43]使用LLMs将复杂的基于自然语言的指令翻译为简单的任务指定语言以供RL智能体使用。这些工作表明，LLM是一个有前途和强大的角色，可以为长期存在的RL挑战做出贡献。

尽管将LLMs整合到RL范式中的领域取得了进步，但在这一迅速发展的领域目前显著缺乏全面综述。此外，尽管提出了各种方法将LLMs整合到RL范式中，但还没有统一的框架进行这种整合。我们的综述旨在填补这些空白，通过提供相关文献的广泛回顾，定义名为LLM增强RL的新范式的范围，并进一步提出一个分类法来对LLMs在所提范式中的功能进行分类。

A. 贡献

本综述做出以下贡献：

LLM增强RL范式：本文在整合LLM到RL范式的新兴领域中提出了第一个全面综述。为了明确研究范围和未来工作的方向，我们定义了LLM增强RL这一术语来概括这类方法论，总结了特征并提供了一个相应的框架，清晰地说明了1）如何将LLMs整合到经典的智能体-环境互动中以及2）LLMs为传统RL范式提供的多方面增强。

统一的分类法：进一步对LLM增强RL范式中LLMs的功能进行分类，我们提出了一个结构化的分类法，系统地将LLMs分类为信息处理器、奖励设计者、决策者和生成器。通过这样的分类，提供了一个清晰的视角，展示了LLMs如何整合到经典RL范式中。

算法回顾：对于LLM的每个角色，我们回顾了这一方向上的新兴工作，并从能力的角度讨论了不同的算法特性。基于这一基础，分析了LLM增强RL的未来应用、机会和挑战，以提供推进这一跨学科领域的潜在路线图。

B. 文本组织余下的部分按以下方式组织。第二节提供了RL和LLM的基础知识。第三节介绍了LLM增强RL的概念并提供了其整体框架。继续，第四、五、六和七节深入分析了LLMs在RL上下文中的角色，探讨了它们作为信息处理器、奖励设计者、决策者和生成器的作用。最后，第八节讨论了LLM增强RL的应用、机会和挑战。最后，第九节总结了综述。

大模型增强强化学习

强化学习（RL）智能体经常在实际应用中被赋予使用多模态信息做出稳健和深思熟虑决策的任务，无论是在马尔可夫决策过程（MDP）设置中还是在特定任务描述的上下文中。例子包括设计用于在导航物理环境时遵循自然语言指令的机器人，或者具有用自然语言描述的任务的视觉游戏[68]、[69]、[70]。然而，对于传统的RL方法来说，这是一个挑战，因为智能体需要同时解释复杂的多模态数据并在不断变化的环境中优化控制策略[71]。这些挑战还包括样本效率低、制定能准确反映多模态输入的奖励函数的难度，以及在不同任务和设置中需要稳健泛化的需求。

大型语言模型（LLMs）的快速进步为这些挑战提供了一个可行的解决方案，这得益于它们强大的自然语言理解和推理能力，以及最近在整合视觉数据处理方面的进展[72]。这种双重能力使LLMs能够有效地解释和处理复杂的多模态信息，作为增强RL范式以适用于实际应用的强大助手。

然而，尽管LLMs具有强大的功能，当前的研究多种多样，缺乏正确指定系统方法论的标准概念，这阻碍了这一领域研究的进步。因此，我们介绍了以下所谓的LLM增强RL的概念： LLM增强RL指的是利用预训练、内含知识的AI模型的多模态信息处理、生成、推理等能力来协助RL范式的方法。

与传统的基于模型的强化学习不同，LLM增强RL的一个关键特点是它利用了具有通用知识的模型，这意味着模型在学习过程开始时就具有相当水平的能力，并且与其他数据驱动模型相比具有更好的泛化能力。此外，LLM增强RL仍然使用AI模型，并且可以通过RL交互数据持续学习以提高其能力。

B. 框架

LLM增强RL的框架如图2的中心所示，它建立在经典的智能体-环境互动范式之上。伴随着尝试和错误的学习过程，LLM处理状态信息，重新设计奖励，协助选择行动，并在选择行动后解释策略。具体来说，一方面，当智能体从环境接收状态和奖励信息时，LLM能够处理或修改信息，以过滤不必要的基于自然语言的信息或设计适当的奖励以加速学习过程，基于自然语言理解和推理能力。另一方面，当智能体基于观察即将选择一个行动时，LLM可以通过模拟世界模型或充当策略网络来协助选择行动过程，以基于建模能力和常识知识生成合理的行动。此外，在选择行动过程之后，综合状态、奖励和行动信息，LLM可以解释策略选择背后的潜在可能原因，这有助于人类监督者理解进一步系统优化的场景。基于LLM在框架中的功能，我们提取LLM增强RL的特性，并进一步将LLM在LLM增强RL中的四种不同角色细分为信息处理器、奖励设计师、生成器和决策者，这将在下一小节中详细阐述。

C. 特性

LLM增强RL范式增强了原始RL范式，具有以下特性：

多模态信息理解：LLMs增强了RL智能体对涉及多模态信息场景的理解，使它们能够更有效地从用自然语言和视觉数据描述的任务或环境中学习。

多任务学习和泛化：受益于多学科预训练知识，LLMs通过设计奖励或生成参考行动，赋予RL智能体多任务学习和泛化的能力。

改善样本效率：鉴于其固有的探索性质，RL范式需要大量样本来学习。预训练的LLM可以通过模拟增强数据生成或利用先验知识来提高RL的样本效率。

长期规划处理：随着轨迹长度的增加，由于信用分配问题，RL变得更具挑战性。LLMs可以将复杂任务分解为子任务，协助RL智能体在更长的时间范围内进行规划，帮助在复杂的多步骤任务（如Minecraft游戏）中进行决策过程。

奖励信号生成：基于上下文理解和领域知识，LLMs有助于奖励塑形和奖励函数设计，这有助于引导RL向有效的策略学习在稀疏奖励环境中。

D. 分类在本小节中，我们通过详细说明它们的功能和它们解决的RL相应问题，展示LLMs在上述框架内的不同角色：

信息处理器：当观察或任务描述涉及语言或视觉特征时，智能体同时理解复杂信息和优化控制策略变得具有挑战。为了减轻智能体理解多模态数据的负担，LLM可以作为环境信息或任务指令信息的信息处理器，通过1）提取有意义的特征表示以加速网络学习；2）将基于自然语言的环境信息或任务指令信息翻译为形式化的特定任务语言以降低学习复杂性。

奖励设计师：在奖励稀疏或难以定义高性能奖励函数的复杂任务环境中，使用先验世界知识、推理能力和代码生成能力，LLM可以担任两种角色：1）隐式奖励模型，根据环境信息提供奖励值，通过训练或提示；2）显式奖励模型，生成奖励函数的可执行代码，透明地指定基于环境规范和基于语言的指令或目标的奖励标量的逻辑计算过程。

决策者：RL在探索长期环境时面临样本效率低和规划的挑战。通过担任决策者，预训练的LLMs可以执行：1）直接决策：使用强大的序列建模能力和常识知识来提高离线RL的样本效率；2）间接决策：充当专家指导者，生成行动候选（高级任务规划）以缩小行动选择范围或输出参考策略以间接指导RL策略的更新方向。

生成器：基于模型的RL依赖于精确的世界模型来学习准确的环境动态并模拟高保真轨迹。此外，解释性在RL中仍然是另一个重要问题。使用多模态信息理解能力和先验常识推理能力，LLMs可以1）作为生成器在基于模型的RL中生成准确轨迹；2）在可解释的RL中使用相关信息的提示生成策略解释。

成为VIP会员查看完整内容