Visual localization has traditionally been formulated as a pair-wise pose regression problem. Existing approaches mainly estimate relative poses between two images and employ a late-fusion strategy to obtain absolute pose estimates. However, the late motion average is often insufficient for effectively integrating spatial information, and its accuracy degrades in complex environments. In this paper, we present the first visual localization framework that performs multi-view spatial integration through an early-fusion mechanism, enabling robust operation in both structured and unstructured environments. Our framework is built upon the VGGT backbone, which encodes multi-view 3D geometry, and we introduce a pose tokenizer and projection module to more effectively exploit spatial relationships from multiple database views. Furthermore, we propose a novel sparse mask attention strategy that reduces computational cost by avoiding the quadratic complexity of global attention, thereby enabling real-time performance at scale. Trained on approximately eight million posed image pairs, Reloc-VGGT demonstrates strong accuracy and remarkable generalization ability. Extensive experiments across diverse public datasets consistently validate the effectiveness and efficiency of our approach, delivering high-quality camera pose estimates in real time while maintaining robustness to unseen environments. Our code and models will be publicly released upon acceptance.https://github.com/dtc111111/Reloc-VGGT.


翻译:视觉定位传统上被表述为一个成对姿态回归问题。现有方法主要估计两幅图像之间的相对姿态,并采用后期融合策略来获取绝对姿态估计。然而,后期运动平均通常不足以有效整合空间信息,且在复杂环境中其精度会下降。本文提出了首个通过早期融合机制执行多视图空间集成的视觉定位框架,使其能够在结构化和非结构化环境中稳健运行。我们的框架建立在VGGT骨干网络之上,该网络编码多视图三维几何信息;我们引入了姿态标记器和投影模块,以更有效地利用来自多个数据库视图的空间关系。此外,我们提出了一种新颖的稀疏掩码注意力策略,通过避免全局注意力的二次复杂度来降低计算成本,从而实现大规模实时性能。在约八百万个带姿态图像对上训练的Reloc-VGGT展现出强大的精度和卓越的泛化能力。在多个不同公共数据集上的广泛实验一致验证了我们方法的有效性和效率,能够实时提供高质量的相机姿态估计,同时对未见环境保持鲁棒性。我们的代码和模型将在论文被接受后公开发布。https://github.com/dtc111111/Reloc-VGGT。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员