Computer vision and robotics applications ranging from augmented reality to robot autonomy in large-scale environments require spatio-temporal memory frameworks that capture both geometric structure for accurate language-grounding as well as semantic detail. Existing methods face a tradeoff, where producing rich open-vocabulary descriptions comes at the expense of real-time performance when these descriptions have to be grounded in 3D. To address these challenges, we propose Describe Anything, Anywhere, at Any Moment (DAAAM), a novel spatio-temporal memory framework for large-scale and real-time 4D scene understanding. DAAAM introduces a novel optimization-based frontend to infer detailed semantic descriptions from localized captioning models, such as the Describe Anything Model (DAM), leveraging batch processing to speed up inference by an order of magnitude for online processing. It leverages such semantic understanding to build a hierarchical 4D scene graph (SG), which acts as an effective globally spatially and temporally consistent memory representation. DAAAM constructs 4D SGs with detailed, geometrically grounded descriptions while maintaining real-time performance. We show that DAAAM's 4D SG interfaces well with a tool-calling agent for inference and reasoning. We thoroughly evaluate DAAAM in the complex task of spatio-temporal question answering on the NaVQA benchmark and show its generalization capabilities for sequential task grounding on the SG3D benchmark. We further curate an extended OC-NaVQA benchmark for large-scale and long-time evaluations. DAAAM achieves state-of-the-art results in both tasks, improving OC-NaVQA question accuracy by 53.6%, position errors by 21.9%, temporal errors by 21.6%, and SG3D task grounding accuracy by 27.8% over the most competitive baselines, respectively. We release our data and code open-source.


翻译:从增强现实到大规模环境中的机器人自主系统,计算机视觉与机器人应用均需要时空记忆框架,该框架需同时捕获几何结构以实现准确的语言接地以及语义细节。现有方法面临权衡:生成丰富的开放词汇描述往往以牺牲三维接地时的实时性能为代价。为应对这些挑战,我们提出了“随时随地描述任何事物”(DAAAM),一种面向大规模实时四维场景理解的新型时空记忆框架。DAAAM引入了一种基于优化的新型前端,通过批处理将推理速度提升一个数量级,从而从局部化的描述模型(如“描述任何事物模型”(DAM))推断出详细的语义描述,以实现在线处理。它利用这种语义理解构建分层四维场景图(SG),该图作为一种全局时空一致的有效记忆表示。DAAAM在保持实时性能的同时,构建具有详细几何接地描述的四维场景图。我们展示了DAAAM的四维场景图能与工具调用代理良好接口,用于推理与决策。我们在NaVQA基准上对DAAAM在时空问答这一复杂任务中进行了全面评估,并展示了其在SG3D基准上序列任务接地的泛化能力。我们进一步构建了扩展的OC-NaVQA基准用于大规模长时评估。DAAAM在两项任务中均取得了最先进的结果:与最具竞争力的基线相比,OC-NaVQA问题准确率提升了53.6%,位置误差降低了21.9%,时间误差降低了21.6%,SG3D任务接地准确率提升了27.8%。我们已开源数据和代码。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 10月31日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员