A key challenge in evaluating VLMs is testing models' ability to analyze visual content independently from their textual priors. Recent benchmarks such as BLINK probe visual perception through visual prompting, where questions about visual content are paired with coordinates to which the question refers, with the coordinates explicitly marked in the image itself. While these benchmarks are an important part of VLM evaluation, we find that existing models are surprisingly fragile to seemingly irrelevant details of visual prompting: simply changing a visual marker from red to blue can completely change rankings among models on a leaderboard. By evaluating nine commonly-used open- and closed-source VLMs on two visually prompted tasks, we demonstrate how details in benchmark setup, including visual marker design and dataset size, have a significant influence on model performance and leaderboard rankings. These effects can even be exploited to lift weaker models above stronger ones; for instance, slightly increasing the size of the visual marker results in open-source InternVL3-8B ranking alongside or better than much larger proprietary models like Gemini 2.5 Pro. We further show that low-level inference choices that are often ignored in benchmarking, such as JPEG compression levels in API calls, can also cause model lineup changes. These details have substantially larger impacts on visually prompted benchmarks than on conventional semantic VLM evaluations. To mitigate this instability, we curate existing datasets to create VPBench, a larger visually prompted benchmark with 16 visual marker variants. VPBench and additional analysis tools are released at https://lisadunlap.github.io/vpbench/.


翻译:评估视觉语言模型(VLM)的一个关键挑战在于测试模型独立于其文本先验分析视觉内容的能力。最近的基准测试(如BLINK)通过视觉提示来探究视觉感知能力,其中关于视觉内容的问题会与问题所指的坐标配对,并且坐标在图像本身中被明确标记。尽管这些基准测试是VLM评估的重要组成部分,但我们发现现有模型对于视觉提示中看似无关的细节表现出惊人的脆弱性:仅仅将视觉标记从红色改为蓝色,就可能完全改变排行榜上模型的排名顺序。通过在两个视觉提示任务上评估九个常用的开源和闭源VLM,我们证明了基准测试设置中的细节(包括视觉标记设计和数据集大小)对模型性能和排行榜排名具有显著影响。这些效应甚至可以被利用来使较弱的模型超越较强的模型;例如,稍微增大视觉标记的尺寸,就使得开源模型InternVL3-8B的排名与Gemini 2.5 Pro等规模大得多的专有模型相当甚至更优。我们进一步表明,在基准测试中常被忽略的低层推理选择(例如API调用中的JPEG压缩级别)也可能导致模型排名变化。这些细节对视觉提示基准测试的影响,远大于对传统语义VLM评估的影响。为了缓解这种不稳定性,我们整理了现有数据集,创建了VPBench——一个包含16种视觉标记变体、规模更大的视觉提示基准测试。VPBench及额外的分析工具发布于 https://lisadunlap.github.io/vpbench/。

0
下载
关闭预览

相关内容

Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
0+阅读 · 12月24日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员