大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

来自哈工大社会计算与信息检索研究中心等《思维链推理》研究综述，系统地组织了当前的研究，包括XoT的构建、XoT的结构变体和增强的XoT

思维链推理是人类智能的基础认知过程，在人工智能和自然语言处理领域引起了极大的关注。然而，这一领域依然缺乏全面的研究综述。为此，我们迈出了第一步，仔细而广泛地呈现了这一研究领域的深入综述。我们使用X-of-Thought来广义地指代思维链。具体而言，我们按照方法的分类系统地组织了当前的研究，包括XoT的构建、XoT的结构变体和增强的XoT。此外，我们还描述了XoT的前沿应用，涵盖了规划、工具使用和精馏。我们还会讨论挑战并探讨一些未来的方向，包括忠实性、多模态和理论。我们希望这篇综述对于寻求在思维链推理领域创新的研究人员来说是一份宝贵的资源。

经过预训练的语言模型（PLMs）能够从无标签文本中自动学习通用表示，并通过在下游任务上进行微调来取得出色的性能（Devlin 等，2019；Raffel 等，2020；Radford 和 Narasimhan，2018）。最近，扩大语言模型的规模不仅显著提高了性能，而且还带来了许多惊喜，例如突现能力（Wei 等，2022a；Schaeffer 等，2023）。因此，自然语言处理的范式正在从预训练与微调转向预训练与上下文学习。然而，迄今为止，大型语言模型（LLMs）在一些复杂推理任务上，例如数学推理（Cobbe 等，2021；Patel 等，2021）、常识推理（Talmor 等，2021；Mihaylov 等，2018）等，仍有相当大的提升空间。

为了利用 LLMs 处理复杂推理任务，Wei 等（2022b）扩展了上下文学习，通过逐步推理过程首次引入了思维链（CoT）提示的概念。Kojima 等（2022）发现，在提示中简单地加入一个神奇的短语“让我们一步一步地思考”，使得 LLMs 能够在没有任何人工注释推理过程的情况下进行零样本思维链推理。这些研究凸显了思维链在增强模型的复杂推理能力和提高其推理和规划能力方面的重要性。

随后，关于 X-of-thought（XoT）的大量工作在 NLP 社区中如雨后春笋般涌现，例如自动 XoT 构建（Kojima 等，2022；Zhang 等，2023a；Xu 等，2023）、XoT 结构变体（Chen 等，2022a；Ning 等，2023；Lei 等，2023；Yao 等，2023b）等。注意，为了与原始的 CoT 进行区分，我们广义地使用 XoT 来指代 CoT，这是一个用于逐步推理方法的集合术语。然而，这些方法和数据集尚未经过系统性的审查和分析。为了填补这一空白，我们提出了这项工作，对 XoT 家族进行全面和详细的分析。在本文中，我们首先介绍相关背景和初步情况（§2）。此外，我们仔细地从多个角度对 XoT 系列的工作进行分类，并完成了深入分析（§4），包括 XoT 构建方法（§4.1）、XoT 结构变体（§4.2）和 XoT 增强方法（§4.3）。然后，我们提供了 XoT 在前沿领域的实际应用（§5）。为了激发 XoT 的后续工作，我们提供了对该领域未来研究可能的方向的见解（§6）。最后，我们比较并讨论了现有的方法（§7）。

Benchmarks

方法

在本节中，我们通过三个不同的分类来探索思维链推理：思维链的构建（§4.1）、思维链的结构变体（§4.2）和思维链的增强方法（§4.3）。

**1 构建方法

经过深入分析，我们将思维链的构建分为三个类别：1）手动XoT，2）自动XoT，和3）半自动XoT，以下进行描述。

1.1 手动XoT

尽管大型语言模型通过提示执行少数示例的上下文学习，但它们在推理任务上仍然受到限制。为了探索大型语言模型的潜在推理能力，一种标准方法是在演示中提供不同形式的思维。 Wei等人（2022b）首先通过手动提供自然语言形式的理由来演示，提出了思维链提示（少数示例CoT）。为了进一步确保推理过程的确定性，并减少推理路径和答案之间的不一致性，PAL（Gao等人，2023）和PoT（Chen等人，2022a）利用编程语言作为注释理由，将问题解决转变为可执行的Python程序。同时，为了充分发挥自然语言和编程语言的优势，并提高推理输出的信心，MathPrompter（Imani等人，2023）使用零样本思维链提示生成多个代数表达式或Python函数，这些表达式或函数可以相互验证并提高结果的可靠性。此外，由于演示中样本的推理复杂性，例如具有更多推理步骤的链，导致性能的提高，Fu等人（2023a）提出了基于复杂性的提示，其中对高复杂性的理由进行投票以得出最终答案。手动构建的思维链方法通过向演示中添加不同类型的逐步中间推理过程来扩展上下文学习。它们允许LLMs模仿并生成推理路径。尽管手动XoT方法为人类理解提供了更大的可解释性和可信度，并且在复杂任务上表现优异，即数学推理、常识推理、符号推理等，但手动注释理由需要显著的成本，并且存在诸如演示选择和任务泛化的困难。因此，其他作品试图以自动的方式构建推理路径。

1.2 自动XoT

思维链提示（Wei等人，2022b）在少数设置中通过任务特定的范例引出了LLMs的复杂推理能力，这限制了其可扩展性和泛化性。为了减少手工制作的少数范例的成本，Kojima等人（2022）通过在问题之后引入一个神奇的短语“Let’s think step by step”，提出了零样本CoT，这使得LLMs能够以零样本的方式生成推理链。然而，零样本CoT的推理路径质量差，伴随着许多错误。由于演示的多样性在推理链生成中起着重要作用，Auto-CoT（Zhang等人，2023a）通过聚类和代表性范例选择自动生成演示，这改善了演示的多样性，并始终匹配或超过了少数示例CoT的性能。Xu等人（2023）提出Reprompting，通过迭代地使用吉布斯抽样来找到有效的CoT提示。同时，推理链中的一些错误来自于遗漏步骤的错误，Wang等人（2023f）通过设计一个计划将整个任务划分为更小的子任务，并根据计划用更详细的指令执行子任务，将零样本CoT扩展到计划并解决（PS）提示。此外，PoT（Chen等人，2022a）也探索了如Codex这样的语言模型，通过逐步添加“Let’s write a Python program…”来生成可执行的Python程序，以零样本设置解决数学问题，这减轻了中间推理步骤中的错误。与手动XoT不同，使用零样本提示工程或采样的自动XoT具有可扩展性，并且可以在不需要人工干预的情况下在域之间泛化。然而，由于缺乏人类对齐，自动生成的思维链遇到了诸如质量差、错觉和事实不一致性等挑战。因此，以半自动方式构建XoT是必要的，这将在§1.1.3中介绍。

1.3 半自动XoT

半自动XoT方法融合了手动和自动构建方法的优点。Shao等人(2023)提出了合成提示，该方法利用少量人工标注的例子，通过一种交替的前向-后向过程，引导模型生成更多的例子，并选择有效的演示来引出更好的推理，减轻AutoCoT中人的对齐缺乏的问题。尽管之前的工作解决了手动标注的问题，但演示选择也可以显著影响性能。 Automate-CoT (Shum等人，2023)采用方差降低策略的强化学习来估计在黑箱语言模型中每个例子的重要性，引出更好的演示选择。同样，Lu等人(2023b)提出PromptPG，它利用策略梯度学习来选择表格推理中的演示。

2 XoT结构变体

最原始的思维链是一种用自然语言描述中间推理步骤的链结构。在本节中，我们将介绍修改原始链结构的结构变体，包括链结构变体、树结构变体和图结构变体。树结构：原始链结构固有地限制了探索范围。通过整合树结构和树搜索算法，模型获得了在推理过程中高效探索和回溯的能力。但是，当前的thought-of-tree在任务选择上有很大的局限性，每个任务都需要特定的提示设计。图结构：与树相比，图引入了循环和环，带来了更复杂的拓扑关系，并允许建模更复杂的推理。

3 XoT增强方法

在本节中，我们将介绍XoT增强方法。总之，我们将概述五个类别，分别是加入验证和细化(§4.3.1)、问题分解(§4.3.2)、利用外部知识(§4.3.3)、投票和排名(§4.3.4)、提高效率(§4.3.5)。

3.1 验证和细化：链式思考推理往往倾向于产生错误的推理步骤，其中间推理步骤的错误会触发一系列的错误。 3.2 问题分解：X-of-thought推理的本质在于其分步解决问题。 Wang等人(2022a)迭代地从模型中获取知识，取得了多跳QA方面的进展。

3.3 外部知识：模型内的参数化知识是有限且过时的。引入外部知识可以缓解这种现象。

3.4 投票和排名：由于生成过程中的固有随机性，LLM推理表现出一些随机性和不确定性。通过多次采样策略，可以有效减轻这个问题。

3.5 效率：LLM推理和手动注释推理链

结论

在本文中，我们对现有的关于思维链推理（X-of-thought reasoning）的研究进行了广泛的调查，提供了该领域的全面回顾。我们引入了广义思维链（X-of-Thought）的概念，并从多个角度审视了在思维链推理方面的进展。另外，我们也探讨了思维链在尖端领域的应用。我们还突出了当前这一研究面临的挑战，并提供了未来的展望。据我们所知，这项调查代表了对思维链推理的首次系统探索。我们的目标是为对思维链推理感兴趣的研究者提供全面的概览，希望这份调查能推动该领域的进一步研究。

成为VIP会员查看完整内容