摘要—多传感器融合感知(Multi-sensor Fusion Perception, MSFP)是具身智能中的一项关键技术,能够服务于多种下游任务(如三维目标检测与语义分割)和应用场景(如自动驾驶与群体机器人)。近年来,基于人工智能的 MSFP 方法取得了显著进展,并已在相关综述中有所回顾。然而,通过严谨而细致的调研,我们发现现有综述仍存在一些局限性。一方面,大多数综述面向的是单一任务或研究领域,例如三维目标检测或自动驾驶,因此难以为其他相关任务的研究者提供直接参考。另一方面,大多数综述仅从多模态融合的单一视角介绍 MSFP,缺乏对 MSFP 方法多样性的系统考量,例如多视角融合和时序融合等。 为此,本文尝试从任务无关的视角系统梳理 MSFP 研究工作,从多个技术维度出发介绍相关方法。具体而言,我们首先介绍 MSFP 的背景知识,接着回顾多模态融合与多智能体融合方法,进一步分析时序融合技术。在大语言模型(LLM)时代背景下,我们也探讨了多模态 LLM 融合方法。最后,本文总结了 MSFP 面临的挑战与未来发展方向。我们希望该综述能帮助研究者理解 MSFP 的重要进展,并为未来研究提供有价值的参考。 关键词—多传感器融合感知,具身智能,多模态,多视角,时序,多模态大语言模型(MM-LLM)

I. 引言

近年来,得益于深度学习与大语言模型(Large Language Model, LLM)的快速发展,人工智能(Artificial Intelligence, AI)在多个领域取得了显著进展 [1]–[3]。作为 AI 的重要研究方向之一,具身智能(Embodied AI)指的是以物理实体为载体,通过在动态环境中的实时感知实现自主决策与行动能力的一种智能形式。具身智能具有广泛的应用场景,例如自动驾驶和群体机器人智能 [4], [5],近年来已成为 AI 社区的一个研究热点,同时也被认为是突破当前 AI 发展瓶颈、实现通用人工智能(Artificial General Intelligence, AGI)的关键路径。 在具身智能系统的构建过程中,传感器数据理解是连接物理世界与数字智能的核心环节。不同于以视觉为主的传统感知模式,具身智能体(Embodied Agent)需融合多模态传感器数据,以实现对环境的全景式感知。这些传感器包括视觉摄像头、毫米波雷达、激光雷达(LiDAR)、红外摄像头和惯性测量单元(IMU)等。多传感器融合感知(Multi-sensor Fusion Perception, MSFP)对于实现具身智能的鲁棒感知与精准决策能力至关重要。例如,视觉摄像头容易受到光照变化的干扰,而激光雷达在雨雾天气下的性能也会显著衰减。 如图 1 所示,当前面向具身智能的多传感器融合感知研究主要基于“智能体—传感器—数据—模型—任务”的基本范式。现有 MSFP 方法在自动驾驶、工业机器人等领域已取得令人瞩目的成果,但其在具身智能场景中的应用仍面临一些固有挑战。具体而言,首先,跨模态数据的异质性导致难以统一特征空间;其次,不同传感器之间的时空异步可能造成融合误差;此外,传感器故障(如镜头污损或信号遮挡)可能导致多模态信息的动态丢失。 围绕上述问题,如表 1 所示,近年来已有一些综述工作系统地总结了相关方法 [6]–[14]。尽管这些研究做出了宝贵贡献,我们在深入调研后仍发现当前综述存在一些不足。一方面,大多数综述聚焦于单一任务或研究领域,如三维目标检测或自动驾驶,使得其他相关任务的研究者难以从中受益。另一方面,大多数综述仅从多模态融合的单一视角出发,缺乏对 MSFP 方法多样性的系统探讨,例如多智能体融合时序融合等方向的覆盖不足。

为此,本文旨在从任务无关的视角对 MSFP 研究进行系统梳理,从多个技术维度纯粹地组织与呈现现有方法。具体而言,我们首先介绍 MSFP 的背景,包括不同的感知任务、传感器数据、主流数据集以及评估指标;随后,综述多模态融合方法,涵盖点级、体素级、区域级以及多层级融合策略;沿此思路,我们进一步分析关注多智能体与基础设施协同感知的多智能体融合方法;在此基础上,我们探讨将多个时间帧传感器数据进行联合建模的时序融合方法;在大模型时代背景下,我们还系统调研了当前基于视觉-语言与视觉-LiDAR 融合的多模态大语言模型(MM-LLM)方法,这一方向在现有综述中鲜有涉及。最后,我们从数据层、模型层与应用层三个维度,全面讨论 MSFP 面临的挑战与未来发展机遇。 我们希望本文能帮助研究者全面理解过去十年 MSFP 的关键进展,并为未来研究提供有价值的启发与参考。 **本文其余结构如下:**第二节从不同的传感器数据、可用数据集和典型感知任务角度介绍 MSFP 的背景;第三节从点级、体素级、区域级和多层级等不同粒度介绍多模态融合方法;第四节总结多智能体协同感知方法;第五节回顾 MSFP 中的时序融合方法;第六节调研当前基于 MM-LLM 的融合方法;第七节探讨 MSFP 领域尚未解决的挑战与未来发展方向;最后在第八节总结全文内容。

成为VIP会员查看完整内容
3

相关内容

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
深度学习图像匹配:综述与展望
专知会员服务
15+阅读 · 6月6日
视觉中的生成物理人工智能:综述
专知会员服务
34+阅读 · 1月26日
多模态可解释人工智能综述:过去、现在与未来
专知会员服务
42+阅读 · 2024年12月20日
迈向通用工业智能:工业物联网增强的持续大模型综述
专知会员服务
47+阅读 · 2024年9月4日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
15+阅读 · 2020年8月23日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
468+阅读 · 2023年3月31日
Arxiv
170+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员