Spurious bias, a tendency to exploit spurious correlations between superficial input attributes and prediction targets, has revealed a severe robustness pitfall in classical machine learning problems. Multimodal Large Language Models (MLLMs), which leverage pretrained vision and language models, have recently demonstrated strong capability in joint vision-language understanding. However, both the presence and severity of spurious biases in MLLMs remain poorly understood. In this work, we address this gap by analyzing the spurious biases in the multimodal setting and uncovering the specific inference-time data patterns that can manifest this problem. To support this analysis, we introduce MM-SpuBench, a comprehensive, human-verified benchmark dataset consisting of image-class pairs annotated with core and spurious attributes, grounded in our taxonomy of nine distinct types of spurious correlations. The benchmark is constructed using human-interpretable attribute information to capture a wide range of spurious patterns reflective of real-world knowledge. Leveraging this benchmark, we conduct a comprehensive evaluation of the state-of-the-art open-source and proprietary MLLMs with both standard accuracy and the proposed Conditional Generation Likelihood Advantage (CGLA). Our findings highlight the persistence of reliance on spurious correlations and the difficulty of mitigation on our benchmark. We hope this work can inspire new technical strides to mitigate these biases. Our benchmark is publicly available at https://huggingface.co/datasets/mmbench/MM-SpuBench.


翻译:伪偏差——即利用表面输入属性与预测目标之间伪相关性的倾向——已在经典机器学习问题中揭示出严重的鲁棒性缺陷。多模态大语言模型(MLLMs)通过利用预训练的视觉和语言模型,近期在联合视觉-语言理解方面展现出强大能力。然而,MLLMs中伪偏差的存在程度及其严重性仍鲜为人知。本研究通过分析多模态场景下的伪偏差,并揭示可能引发该问题的特定推理时数据模式,以弥补这一认知空白。为支持此项分析,我们提出了MM-SpuBench:一个基于九种伪相关性分类体系构建的、包含核心属性与伪属性标注的图像-类别对数据集。该基准数据集采用人类可解释的属性信息进行构建,以捕捉反映现实世界知识的广泛伪相关模式。借助该基准,我们采用标准准确率与新提出的条件生成似然优势(CGLA)指标,对当前最先进的开源及专有MLLMs进行了全面评估。研究结果凸显了模型对伪相关性依赖的持续性,以及在当前基准上缓解该问题的难度。我们期望这项工作能激发缓解此类偏差的新技术突破。本基准数据集已公开于https://huggingface.co/datasets/mmbench/MM-SpuBench。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员