Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.


翻译:视觉定位,即根据自然语言描述定位物体,是连接语言与视觉理解的关键桥梁。尽管多模态大语言模型(MLLMs)在现有基准测试中取得了令人印象深刻的分数,但一个根本问题依然存在:MLLMs是否真的能像人类一样精细地将语言锚定于视觉,还是仅仅在简化数据集上进行模式匹配?当前的基准测试未能捕捉现实世界的复杂性,而人类在其中能轻松处理模糊指代并识别何时无法进行定位。为严格评估MLLMs的真实能力,我们提出了GroundingME基准,该系统性地在四个关键维度上挑战模型:(1)判别性——区分高度相似的物体,(2)空间性——理解复杂的关系描述,(3)受限性——处理遮挡或微小物体,以及(4)拒绝性——识别无法定位的查询。通过结合自动生成与人工验证的精心构建,我们创建了1,005个反映现实世界复杂性的挑战性示例。对25个最先进的MLLMs进行评估揭示了一个深刻的能力差距:最佳模型仅达到45.1%的准确率,而大多数模型在拒绝任务上得分为0%,它们会反射性地幻觉出物体而非承认其不存在,这对部署提出了关键的安全隐患。我们探索了两种改进策略:(1)测试时缩放通过思考轨迹选择最优响应,将复杂定位任务性能提升高达2.9%;(2)数据混合训练教导模型识别无法定位的查询,将拒绝准确率从0%提升至27.9%。因此,GroundingME既是一个揭示当前MLLMs局限性的诊断工具,也是一条通向人类水平视觉定位的路线图。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员