Humans effortlessly identify objects by leveraging a rich understanding of the surrounding scene, including spatial relationships, material properties, and the co-occurrence of other objects. In contrast, most computational object recognition systems operate on isolated image regions, devoid of meaning in isolation, thus ignoring this vital contextual information. This paper argues for the critical role of context and introduces a novel framework for contextual object classification. We first construct a Geo-Semantic Contextual Graph (GSCG) from a single monocular image. This rich, structured representation is built by integrating a metric depth estimator with a unified panoptic and material segmentation model. The GSCG encodes objects as nodes with detailed geometric, chromatic, and material attributes, and their spatial relationships as edges. This explicit graph structure makes the model's reasoning process inherently interpretable. We then propose a specialized graph-based classifier that aggregates features from a target object, its immediate neighbors, and the global scene context to predict its class. Through extensive ablation studies, we demonstrate that our context-aware model achieves a classification accuracy of 73.4%, dramatically outperforming context-agnostic versions (as low as 38.4%). Furthermore, our GSCG-based approach significantly surpasses strong baselines, including fine-tuned ResNet models (max 53.5%) and a state-of-the-art multimodal Large Language Model (LLM), Llama 4 Scout, which, even when given the full image alongside a detailed description of objects, maxes out at 42.3%. These results on COCO 2017 train/val splits highlight the superiority of explicitly structured and interpretable context for object recognition tasks.


翻译:人类能够毫不费力地识别物体,这得益于对周围场景的丰富理解,包括空间关系、材质属性以及其他物体的共现模式。相比之下,大多数计算物体识别系统仅对孤立的图像区域进行操作,这些区域本身缺乏独立意义,从而忽略了这一至关重要的上下文信息。本文论证了上下文的关键作用,并提出了一种新颖的上下文物体分类框架。我们首先从单目图像中构建地理语义上下文图(GSCG)。这一丰富且结构化的表示是通过将度量深度估计器与统一的全景及材质分割模型相结合而建立的。GSCG将物体编码为具有详细几何、色彩和材质属性的节点,并将其空间关系编码为边。这种显式的图结构使得模型的推理过程具有固有的可解释性。接着,我们提出了一种专门的基于图的分类器,该分类器聚合来自目标物体、其直接邻域以及全局场景上下文的特征,以预测其类别。通过广泛的消融实验,我们证明我们的上下文感知模型达到了73.4%的分类准确率,显著优于无视上下文的版本(最低仅为38.4%)。此外,我们基于GSCG的方法显著超越了多个强基线模型,包括微调的ResNet模型(最高53.5%)以及最先进的多模态大语言模型(LLM)Llama 4 Scout。即使为后者提供了完整图像及物体的详细描述,其最高准确率也仅为42.3%。这些在COCO 2017训练/验证集上得到的结果,突显了显式结构化且可解释的上下文在物体识别任务中的优越性。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员