Vision-Language Models (VLMs) have achieved remarkable progress across tasks such as visual question answering and image captioning. Yet, the extent to which these models perform visual reasoning as opposed to relying on linguistic priors remains unclear. To address this, we introduce VisRes Bench, a benchmark designed to study visual reasoning in naturalistic settings without contextual language supervision. Analyzing model behavior across three levels of complexity, we uncover clear limitations in perceptual and relational visual reasoning capacities. VisRes isolates distinct reasoning abilities across its levels. Level 1 probes perceptual completion and global image matching under perturbations such as blur, texture changes, occlusion, and rotation; Level 2 tests rule-based inference over a single attribute (e.g., color, count, orientation); and Level 3 targets compositional reasoning that requires integrating multiple visual attributes. Across more than 19,000 controlled task images, we find that state-of-the-art VLMs perform near random under subtle perceptual perturbations, revealing limited abstraction beyond pattern recognition. We conclude by discussing how VisRes provides a unified framework for advancing abstract visual reasoning in multimodal research.


翻译:视觉语言模型(VLMs)在视觉问答和图像描述等任务中取得了显著进展。然而,这些模型在多大程度上进行了视觉推理,而非依赖于语言先验,目前尚不明确。为解决这一问题,我们提出了VisRes Bench,这是一个旨在研究自然场景下视觉推理能力的基准,无需上下文语言监督。通过分析模型在三个复杂度层级上的行为,我们揭示了其在感知和关系视觉推理能力上的明显局限。VisRes在其各层级中分离了不同的推理能力:第一层级探究在模糊、纹理变化、遮挡和旋转等扰动下的感知补全与全局图像匹配;第二层级测试基于单一属性(如颜色、数量、方向)的规则推理;第三层级则针对需要整合多个视觉属性的组合推理。在超过19,000张受控任务图像上的实验表明,最先进的VLMs在细微的感知扰动下表现接近随机水平,揭示了其超越模式识别的抽象能力有限。最后,我们讨论了VisRes如何为推进多模态研究中的抽象视觉推理提供一个统一框架。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员