摘要——轨迹预测是自动驾驶中的关键功能,它能够提前推测交通参与者(如车辆和行人)的未来运动路径,对驾驶安全至关重要。尽管传统深度学习方法提高了预测精度,但仍受限于固有缺陷,包括缺乏可解释性、对大规模标注数据的高度依赖,以及在长尾场景下泛化能力不足。大型基础模型(Large Foundation Models, LFMs)的兴起正在重塑轨迹预测的研究范式。本综述系统回顾了LFMs的最新进展,特别是大语言模型(Large Language Models, LLMs)和多模态大语言模型(Multimodal Large Language Models, MLLMs)在轨迹预测中的应用。通过整合语言学与场景语义,LFMs能够实现可解释的上下文推理,大幅提升复杂环境中的预测安全性与泛化能力。本文重点介绍了三类核心方法:轨迹—语言映射、多模态融合和基于约束的推理。同时覆盖了车辆与行人预测任务、评估指标与数据集分析。文章还讨论了计算延迟、数据稀缺和真实环境鲁棒性等关键挑战,并展望了未来研究方向,包括低延迟推理、因果感知建模和运动基础模型。 关键词——轨迹预测;自动驾驶;大型基础模型;大语言模型;多模态大语言模型
全面自动驾驶的实现依赖于系统预测周围交通参与者未来动作的能力,这一任务被称为轨迹预测。随着深度学习的出现,该领域经历了一次范式转变,深度学习为这一问题提供了一种强大的数据驱动方法。基于循环神经网络(RNNs)、图神经网络(GNNs)以及生成模型的架构成为主导范式,它们在直接从数据中学习复杂的时空模式方面取得了显著成功 [1]–[6]。这些模型在捕捉细微交互和提升长期预测精度方面表现突出。然而,尽管取得了这些成就,它们仍面临一个关键挑战:缺乏可解释的决策过程,这对形式化验证和安全认证构成了重大障碍 [7]。此外,它们的性能高度依赖于大量标注数据,而在训练集中未得到充分表示的新颖长尾场景中的泛化能力仍令人担忧 [8]。这些局限性促使研究者探索能够实现更稳健、更具人类推理特性的全新范式。为了更清晰地概览这一轨迹预测的范式转变,图2展示了方法学的历史演变过程,从早期的基于规则系统到当今由大型基础模型(LFMs)驱动的语义推理方法。 LFMs 的出现为解决传统轨迹预测框架的根本局限性引入了一种新范式。LFMs 广泛指一类跨模态的预训练模型,它们作为通用的计算骨干发挥作用。这一连续体包括早期的模态特定编码器(如在大规模数据集上训练的视觉与文本编码器),以及近期展现出强大推理、生成和对齐能力的大语言模型(LLMs)与多模态大语言模型(MLLMs)。如图3所示,LFM 的发展路径反映出架构正持续向着更加集成、知识丰富和具备泛化性的方向演进。这一转变从根本上将轨迹预测从低层次的模式识别任务转变为基于语义理解和认知推理的过程。借助于其内部蕴含的大规模世界知识库,LLMs 能够将常识原则、交通法规和社会规范内化并应用于预测任务 [9], [10]。MLLMs 进一步通过协同整合来自摄像头和激光雷达的异构数据流与文本指令,实现对驾驶场景的整体理解 [11]。更为关键的是,通过链式思维(Chain-of-Thought, CoT)推理等技术,这些模型能够用自然语言逐步解释其预测背后的推理过程,从而在透明性层面应对了传统方法难以解释的挑战 [12]。近期的综述也强调,大型基础模型在自动驾驶中的有效性依赖于四种核心能力:通用知识、空间理解、多传感器鲁棒性与时间推理 [13]。尽管这些能力已在感知任务中得到系统探索,但它们在轨迹预测中的具体整合与评估仍有待深入研究。随着越来越多的研究将这些先进模型应用于轨迹预测,开展系统性的综述显得尤为重要。尽管自动驾驶轨迹预测与大语言模型领域已有不少独立的综述,但针对它们交叉领域的专门综述仍属空缺。一方面,轨迹预测的相关综述主要集中在LFMs出现之前的方法;另一方面,LLMs 的综述则多聚焦于更广泛的应用,而缺乏对其在轨迹预测中作用的专门分析。本综述旨在弥补这一空白,系统梳理LFMs在轨迹预测中的应用。 为此,我们综述了语言基础模型在轨迹预测中的研究现状,重点聚焦近期的技术趋势。本文的主要贡献包括: * 我们对LLMs与MLLMs在轨迹预测中的应用进行了全面综述,并建立了一个结构化分类法,将现有研究划分为三大核心方法:轨迹—语言映射、多模态融合和基于约束的推理。 * 我们整合了车辆与行人预测的主流任务及其常用的评价指标。 * 我们总结并分析了与语言增强轨迹预测相关的基准数据集。 * 我们深入讨论了该领域的优势、持续存在的挑战与研究空白,并提出了未来研究方向的洞见,例如用于实时部署的模型蒸馏以及面向安全验证的因果推理。
本文的其余部分结构如下:第二节提供轨迹预测的全面背景,包括问题表述、传统方法、深度学习、机器学习与强化学习在车辆和行人轨迹预测中的应用;第三节深入探讨基于LLM的轨迹预测,包括感知与场景理解、基于LLM的车辆轨迹预测、基于LLM的行人轨迹预测,以及基于LLM的多智能体轨迹预测;第四节讨论实验基准、评价指标以及传统方法与LLM方法之间的性能比较;第五节总结基于LLM的轨迹预测的优势、挑战与未来方向;第六节给出本文的主要结论。