复杂问题求解一直是推动人类在众多领域取得进步的核心动力。随着人工智能的发展,大型语言模型(LLMs)已成为强大的工具,能够应对各类复杂问题。与传统计算系统不同,LLMs 不仅具备强大的计算能力,还模拟了人类的推理方式,从而能够生成解决方案、进行推理推断,甚至调用外部计算工具。然而,将 LLMs 应用于现实世界中的问题求解仍面临诸多挑战,包括多步推理、领域知识整合以及结果验证等。 本综述旨在探讨 LLMs 在复杂问题求解中的能力与局限性,重点分析诸如思维链(Chain-of-Thought, CoT)推理、知识增强,以及多种基于 LLM 与工具的验证方法等技术。此外,本文还指出了在特定领域中所面临的挑战,如软件工程、数学推理与证明、数据分析与建模以及科学研究等。最后,文章从多步推理、领域知识整合和结果验证的角度,进一步讨论了当前 LLM 解决方案的根本性局限性及未来发展方向。 关键词:大型语言模型、推理、复杂问题求解
人类文明的发展历程深受其解决问题能力的推动,从远古时代建造庇护所,到现代解开宇宙奥秘,无一不体现出问题求解在推动进步中的核心作用。例如,古代天文学家能够计算地球的大小,而现代科学家则通过计算模型预测天气。随着科技的不断进步,人类逐步从依赖个体或集体智慧,过渡到借助强大的工具(如计算机)来应对日益复杂的挑战。这一转变标志着问题求解范式的根本性变革——从以人为中心的方法,演化为人类智慧与计算能力的深度融合。 如今,基于大型语言模型(Large Language Models,LLMs)的人工智能系统代表了一种颠覆性的技术进展 [77, 96, 171, 178]。与擅长精确计算的传统计算机不同,LLMs 能够模拟人类的某些推理过程,如生成创造性的解决方案、进行上下文推断等。这使得 LLMs 成为结合计算能力与类人思维的工具,能够处理那些对人类来说极具挑战性的复杂问题。与人类解决问题的方式类似,LLMs 可以直接输出问题的解答,或通过生成并执行代码来间接求解。 复杂问题求解涵盖了社会中几乎所有关键领域(如图1所示),具有极其广泛的应用范围。例如,设计稳健的软件系统架构需权衡系统可扩展性、可靠性与用户需求;数学定理的证明则依赖严密的逻辑推理与抽象能力。在数据科学领域,构建精准模型以解读庞大数据集,是做出明智决策的基础。同样,药物研发需深入理解复杂的分子相互作用以识别有效疗法;而建立物理模型则帮助我们模拟并理解自然现象。这些实例展现了人类努力解决的复杂问题的多样性,每一类问题都要求融合领域专长、逻辑推理和创造性思维。 解决这些现实世界中的复杂问题通常依赖领域知识与经验,并通过多步推理逐步逼近最终解。在研究社区中,数学推理问题被广泛视为复杂问题求解的代表性任务。目前的研究多集中在那些具有明确标准答案的数学推理任务上。然而,数学定理证明这一更具挑战性的任务却常常被忽略,因为其过程与结果往往不具备唯一可验证的标准答案。在实际应用中,许多复杂问题的难度远超数学推理。首先,这类问题往往难以验证。例如,在数据科学中,同一数据集可采用多种建模技术,不同方法的表现差异巨大,且其有效性受上下文影响显著。其次,解决现实问题往往需要深厚的领域知识。以数据建模为例,成功完成任务不仅要求理解数据本身,还需掌握广泛的建模技术,才能取得优异表现。 解决现实复杂问题需要具备以下三个关键要素:多步推理、领域知识以及结果验证。而在将 LLM 应用于实际场景时,这三方面均带来显著挑战: * 多步推理:复杂问题的求解往往需经过多个推理步骤。随着推理步数的增加,搜索空间呈指数增长,导致正确路径更难识别。同时,推理链中任何步骤出现错误,都可能导致最终结果错误。 * 领域知识:知识在引导问题求解过程中发挥关键作用,帮助识别下一个推理步骤或判断是否已达成解。尤其在诸如机器学习、数学定理证明等领域中,需使用大量“长尾”知识,而当前研究已表明,LLMs 对此类知识掌握能力有限 [121]。因此,构建 LLM 系统时需特别重视领域知识的学习、检索与正确应用。 * 结果验证:每一步推理都必须被评估,以确认其是否有助于最终正确解决问题。在缺乏标准答案或统一流程的任务中,如科学研究或数据挖掘,评估变得尤为复杂。对于开放式问题,目标模糊、标准不一,进一步加大了验证难度。
近年来,LLMs 在某些具有明确目标与可验证结果的复杂问题上展现出卓越的推理能力,特别是在数学推理与编程挑战任务中。思维链(Chain-of-Thought, CoT)推理已成为主流的多步推理技术 [13, 136, 149, 175]。研究发现,CoT 推理中生成路径数量越多,找到正确解的概率越大(即推理规模定律)[20]。通过生成大量思维链路径,模型往往能够成功解决许多原本具挑战性的任务 [10]。鉴于此类任务具有良好的可验证性,众多研究 [23, 65] 开始采用强化学习方法训练 LLM,以提升其在这些场景中的推理能力 [74]。OpenAI 的 GPT-o1 与 DeepSeek-R1 的发布 [23, 99] 展示了 CoT 推理技术的强大潜力 [161]。 尽管 CoT 推理是解决复杂问题的重要方法,但在现实场景中仍需引入代理式方法(agentic approach),即使模型能够访问外部知识库、使用验证工具,以进一步提升其解决复杂问题的能力。此前研究表明,LLMs 在保留长尾知识方面存在困难 [121],而大量领域知识属于此类内容。因此,在知识密集型任务(如科学发现 [1]、数学定理证明 [138]、数据科学 [44])中,整合外部知识资源变得尤为关键。当前已有方法包括:基于检索增强生成(RAG [36]、GraphRAG [30, 48])、构建知识图谱 [78],甚至通过与人类交互直接获取知识 [26, 174]。 结果验证同样至关重要,无论在模型训练阶段还是推理过程中。在训练中,为模型生成高质量训练数据常需依赖验证器进行筛选 [20];而在推理中,推理规模定律也表明需要依靠验证器从多个候选答案中筛选出正确解 [10]。目前已提出多种验证机制,如:LLM 自审(LLM-as-a-judge)方法 [41]、符号推理工具 [19],以及实验验证系统 [76] 等。 尽管在复杂问题求解方面取得了显著进展,不同应用领域仍存在各自独特的挑战。以图1中的若干领域为例: * 软件工程:LLMs 被用于在大型代码库中生成或修改代码,以修复漏洞或实现新功能。这要求模型既能进行代码推理,也需理解整个代码库与项目需求 [146]。此外,软件开发还需优化代码效率与内存使用 [111],使评估过程更具挑战性。 * 数学:主要任务包括计算与证明。尽管基础数学运算数据丰富,高等数学则存在数据稀缺问题,特别是在学术研究层面 [39]。解决这一问题需充分利用领域知识进行数据合成,并利用现有数学知识(如定理)以提升模型在数学证明中的表现。同时,定理证明的验证机制仍不成熟,制约了模型生成严谨解法的能力。 * 数据科学:数据集体量庞大,但任务描述往往缺乏对数据分布的详细说明,使得模型难以生成最适合的建模方案 [12]。因此,需采用多层次评估策略。同时,开发更强建模方法还需整合大量数据建模技术知识。 * 科学研究:常涉及开放式问题,限制了直接训练模型解决科学难题的可行性。一种可能的解决方案是构建人机协作机制(human-LLM collaboration),由人类与模型共同迭代探索文献与知识 [8, 60, 85, 88, 109, 123],生成创新想法 [5, 112, 128, 131],甚至自动化整个研究流程 [87]。
这些挑战凸显了在复杂问题求解方面,当前 LLM 技术仍有大量待解决的问题。 本文旨在全面回顾 LLM 在复杂问题求解方面的研究进展,并超越现有的“推理能力”研究范畴,系统总结 LLM 关键技术的应用与演变路径。文章结构如下: * 第二部分:复杂问题求解的定义
从认知科学与计算理论的角度,正式界定“复杂问题求解”的含义。 * 第三部分:方法论
探讨 LLM 应用于复杂问题的关键技术方法,包括多步推理、知识增强与结果验证。 * 第四部分:领域应用
深入分析软件工程、数据科学、数学与科学研究四大领域的复杂问题,展示 LLM 应用中面临的特定挑战与应对策略。 * 第五部分:当前局限与未来方向
总结当前研究的限制,并展望未来研究方向。