三维视觉推理的核心思想对点云场景中的视觉主体间的关系进行理解。然而,非专业用户难以向计算机传达自己 的意图,从而限制了该技术的普及与推广。为此,研究人员以自然语言作为语义背景和查询条件反映用户意图,进而与点云 的信息进行交互以完成相应的任务。此种范式称作三维视觉-语言推理,近年来在自动驾驶、机器人导航以及人机交互等众 多领域广泛应用,已经成为计算机视觉领域中备受瞩目的研究方向。过去三年间,三维视觉-语言推理技术迅猛发展,呈现 出百花齐放的趋势,但是目前依旧缺乏对最新研究进展的全面总结。本文聚焦于两类最具代表性的研究工作,锚框预测和内 容生成类的三维视觉-语言推理技术,系统性概括领域内研究的最新进展。首先,本文总结了三维视觉-语言推理的问题定义 和现存挑战,同时概述了一些常见的骨干网络。其次,本文按照方法所关注的下游场景,对两类三维视觉-语言推理技术做 了进一步细分,并深入探讨了各方法的优缺点。接下来,本文对比分析了各类方法在不同基准数据集上的性能。最后,本文 展望了三维视觉-语言推理技术的未来发展前景,以期促进该领域的深入研究与广泛应用。