特征匹配是计算机视觉中的一项基础性任务,对于图像检索、立体匹配、三维重建和SLAM 等应用至关重要。本文对基于模态的特征匹配进行了全面综述,涵盖了传统的手工方法,并重点探讨了适用于多种模态(包括 RGB 图像、深度图像、三维点云、激光雷达扫描、医学图像以及视觉-语言交互)的现代深度学习方法。 传统方法依赖于诸如 Harris 角点等检测器,以及如 SIFT 和 ORB 等描述子,在面对中等程度的同模态变换时表现出良好的鲁棒性,但在存在显著模态差异时则面临挑战。现代基于深度学习的方法(如基于 CNN 的 SuperPoint 和基于 Transformer 的 LoFTR)摒弃了显式检测器,在跨模态场景中显著提升了鲁棒性与适应性。

我们重点梳理了模态感知的最新进展,例如针对深度图像的几何与深度特定描述子、用于三维点云的稀疏与密集学习方法、面向激光雷达扫描的注意力增强神经网络,以及如 MIND 描述子等面向复杂医学图像匹配的专用方案。跨模态应用,尤其是在医学图像配准与视觉-语言任务中的应用,进一步彰显了特征匹配技术应对多样化数据交互的演进趋势。

https://arxiv.org/abs/2507.22791

1 引言

特征匹配是计算机视觉中的一项基础性任务,对于图像检索、立体匹配、三维重建以及同时定位与建图(SLAM)等诸多关键应用至关重要。为系统性地分析该研究领域,本文按照具体的数据模态对特征匹配方法进行了归类综述,涵盖了单一模态(如 RGB 图像、三维数据、医学图像)和跨模态(如医学图像配准与视觉-语言)两个层面的研究场景。 我们首先介绍了用于 RGB 图像与三维数据的单模态特征匹配方法,重点梳理了从早期手工设计的检测器与描述子,到现代基于深度学习方法的演进过程。随后,我们深入探讨了医学影像这一特殊领域,它兼具单模态与跨模态匹配的特点,因而需要采用专门的图像配准策略来应对不同医学成像模态之间的差异。接着,我们介绍了视觉-语言特征匹配,重点讨论跨模态对齐技术如何在视觉与文本数据之间建立联系。最后,我们展望了未来的研究方向,反映出多模态与通用特征匹配方法的最新趋势与潜力。 在 RGB 图像匹配方面,相关技术从早期的手工方法(例如 Harris 角点检测器 [74]、稳健的局部描述子如 SIFT [120] 和 SURF [15],以及高效的二值描述子如 ORB [153])显著演进。尽管这些基于模型的方法在视角变化和光照变化不大的同模态匹配中表现出色,但在面对不同模态之间更大的域差异和感知差异时,往往难以适应。近年来,基于学习的方法被提出以克服这些局限,例如 SuperPoint [47] 采用自监督的 CNN 检测-描述一体化架构,在合成数据上训练以实现鲁棒的特征对应;LoFTR [176] 则通过基于 Transformer 的匹配结构进一步推动了该领域的发展,摒弃了显式的关键点检测。 在三维数据领域(包括 RGB-D 图像、激光雷达点云、三维网格,以及多视图 2D 到 3D 点集等),早期的特征匹配方法依赖于几何描述子,如 Spin Images [88] 和 Fast Point Feature Histograms(FPFH)[154],这些方法专为应对刚体变换与稀疏数据结构而设计。近年来,越来越多的方法引入了深度学习策略,例如 3DMatch [216]、FCGF [38]、D3Feat [8] 以及基于 Transformer 的架构 Predator [82],显著提升了匹配精度与鲁棒性。 在医学图像领域,由于不同成像模态(如 MRI、CT、PET、超声)之间存在固有的强度变化和解剖结构形变,特征匹配通常需要采用专门的策略。传统方法如互信息(MI)[190] 和归一化互信息(NMI)[174] 为多模态配准奠定了基础。近年来,深度学习驱动的方法(如 VoxelMorph [9] 和 DiffuseMorph [96])引入了强大的无监督学习策略,有效应对形变与强度差异带来的匹配挑战。 在视觉-语言特征匹配中,研究聚焦于将视觉信息与文本信息结合,用于图像字幕生成 [188]、视觉问答 [4] 和跨模态检索 [93] 等任务。该方向的关键进展包括对比学习训练的双编码器模型,如 CLIP [148] 和 ALIGN [84],实现了可扩展的开放词汇检索与分类;此外,以 MDETR [92] 和 GLIP [111] 为代表的基于 Transformer 的视觉指代模型,显著提升了语言与图像区域之间的精确对齐能力。开放词汇方法也将分类、检测与分割能力扩展至超出训练标签的范畴,借助于大规模预训练模型中的语义嵌入 [63, 106, 223]。然而,该领域仍面临诸如组合推理、鲁棒性、偏差缓解与大规模评估等挑战 [7, 89, 220],未来研究将进一步朝向更具交互性、具身智能以及持续学习的视觉-语言系统发展。 与已有综述相比,例如 Xu 等人于《Information Fusion, 2024》发表的工作 [199] 从基于检测器与非检测器视角出发探讨特征匹配,Huang 等人于《IET Image Processing, 2024》发表的分析 [81] 区分了传统方法与深度学习方法在检测、描述与匹配方面的不同,以及 Ma 于《IJCV, 2021》发表的综述 [128] 侧重对比经典方法与深度学习方法的图像匹配研究,本文的主要贡献体现在以下几个方面: (1) 相比于以往综述主要按算法框架(如手工 vs. 学习,基于检测器 vs. 无检测器)进行分类,本文系统性地按照不同数据模态组织特征匹配技术,具体涵盖 RGB 图像、深度数据、激光雷达扫描、三维点云、医学影像模态(如 X 光、CT、MRI)以及视觉-语言应用等。 (2) 现有综述均未充分讨论视觉-语言匹配这一迅速发展的关键领域,而该领域对图像字幕生成、视觉问答与跨模态检索等应用至关重要。本文专门介绍了该方向的最新进展、挑战与相关方法。 (3) 我们在不同模态内部以及模态之间进行了深入的比较分析,强调了从传统手工技术向先进深度学习解决方案的演进过程。

在本综述中,我们将围绕单模态特征匹配(如 RGB、深度图像、医学图像)与跨模态场景(如医学图像配准与视觉-语言集成)展开讨论,系统分析各类方法所面临的独特挑战与核心技术,并梳理了从传统基于检测器的管线向现代无检测器解决方案的转变路径。图 1 展示了本综述的整体技术路线图,清晰地描绘了特征匹配方法在多种数据模态上的演进过程;图 2 则提供了具有代表性的模态感知特征匹配结果示例。

成为VIP会员查看完整内容
1

相关内容

面向图像处理逆问题的扩散模型研究综述
专知会员服务
14+阅读 · 4月23日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
多模态数字人建模、合成与驱动综述
专知会员服务
28+阅读 · 2024年9月19日
多模态数据的行为识别综述
专知会员服务
87+阅读 · 2022年11月30日
专知会员服务
36+阅读 · 2021年8月27日
专知会员服务
90+阅读 · 2021年8月8日
专知会员服务
125+阅读 · 2021年4月29日
机器学习在信道建模中的应用综述
专知会员服务
28+阅读 · 2021年3月16日
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
多模态情绪识别研究综述
专知
24+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
面向图像处理逆问题的扩散模型研究综述
专知会员服务
14+阅读 · 4月23日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
多模态数字人建模、合成与驱动综述
专知会员服务
28+阅读 · 2024年9月19日
多模态数据的行为识别综述
专知会员服务
87+阅读 · 2022年11月30日
专知会员服务
36+阅读 · 2021年8月27日
专知会员服务
90+阅读 · 2021年8月8日
专知会员服务
125+阅读 · 2021年4月29日
机器学习在信道建模中的应用综述
专知会员服务
28+阅读 · 2021年3月16日
相关资讯
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
多模态情绪识别研究综述
专知
24+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员