Although the cultural dimension has been one of the key aspects in evaluating Vision-Language Models (VLMs), their ability to remain stable across diverse cultural inputs remains largely untested, despite being crucial to support diversity and multicultural societies. Existing evaluations often rely on benchmarks featuring only a singular cultural concept per image, overlooking scenarios where multiple, potentially unrelated cultural cues coexist. To address this gap, we introduce ConfusedTourist, a novel cultural adversarial robustness suite designed to assess VLMs' stability against perturbed geographical cues. Our experiments reveal a critical vulnerability, where accuracy drops heavily under simple image-stacking perturbations and even worsens with its image-generation-based variant. Interpretability analyses further show that these failures stem from systematic attention shifts toward distracting cues, diverting the model from its intended focus. These findings highlight a critical challenge: visual cultural concept mixing can substantially impair even state-of-the-art VLMs, underscoring the urgent need for more culturally robust multimodal understanding.


翻译:尽管文化维度一直是评估视觉语言模型(VLMs)的关键方面之一,但它们在多样化文化输入下保持稳定的能力在很大程度上仍未得到充分测试,尽管这对于支持多样性和多元文化社会至关重要。现有评估通常依赖于每张图像仅包含单一文化概念的基准,忽视了多个可能无关的文化线索共存的场景。为填补这一空白,我们引入了ConfusedTourist,一个新颖的文化对抗鲁棒性测试套件,旨在评估VLMs在面对扰动的地理线索时的稳定性。我们的实验揭示了一个关键脆弱性:在简单的图像堆叠扰动下,模型准确率大幅下降,且在其基于图像生成的变体中表现甚至更差。可解释性分析进一步表明,这些失败源于系统性的注意力向干扰线索的转移,使模型偏离了其预期关注点。这些发现突显了一个严峻挑战:视觉文化概念的混合可能严重损害即使是当前最先进的VLMs,这强调了开发更具文化鲁棒性的多模态理解模型的迫切需求。

0
下载
关闭预览

相关内容

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
16+阅读 · 2021年11月14日
Python图像处理,366页pdf,Image Operators Image Processing in Python
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月24日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员