Large vision-language models (LVLMs) are increasingly deployed in globally distributed applications, such as tourism assistants, yet their ability to produce culturally appropriate responses remains underexplored. Existing multimodal safety benchmarks primarily focus on physical safety and overlook violations rooted in cultural norms, which can result in symbolic harm. To address this gap, we introduce CROSS, a benchmark designed to assess the cultural safety reasoning capabilities of LVLMs. CROSS includes 1,284 multilingual visually grounded queries from 16 countries, three everyday domains, and 14 languages, where cultural norm violations emerge only when images are interpreted in context. We propose CROSS-Eval, an intercultural theory-based framework that measures four key dimensions: cultural awareness, norm education, compliance, and helpfulness. Using this framework, we evaluate 21 leading LVLMs, including mixture-of-experts models and reasoning models. Results reveal significant cultural safety gaps: the best-performing model achieves only 61.79% in awareness and 37.73% in compliance. While some open-source models reach GPT-4o-level performance, they still fall notably short of proprietary models. Our results further show that increasing reasoning capacity improves cultural alignment but does not fully resolve the issue. To improve model performance, we develop two enhancement strategies: supervised fine-tuning with culturally grounded, open-ended data and preference tuning with contrastive response pairs that highlight safe versus unsafe behaviors. These methods substantially improve GPT-4o's cultural awareness (+60.14%) and compliance (+55.2%), while preserving general multimodal capabilities with minimal performance reduction on general multimodal understanding benchmarks.


翻译:大型视觉语言模型(LVLMs)正日益部署于全球分布式应用中,例如旅游助手,但其生成文化适宜性回应的能力仍未得到充分探究。现有的多模态安全基准主要关注物理安全,而忽视了根植于文化规范的违规行为,这可能导致象征性伤害。为填补这一空白,我们提出了CROSS基准,旨在评估LVLMs的文化安全推理能力。CROSS包含来自16个国家、三个日常领域和14种语言的1,284个多语言视觉基础查询,其中文化规范违规仅在图像结合上下文解读时显现。我们提出了CROSS-Eval,这是一个基于跨文化理论的评估框架,用于衡量四个关键维度:文化意识、规范教育、合规性和帮助性。利用该框架,我们评估了21个领先的LVLMs,包括专家混合模型和推理模型。结果显示存在显著的文化安全差距:表现最佳的模型在意识维度仅达到61.79%,在合规性维度仅为37.73%。尽管部分开源模型达到了GPT-4o级别的性能,但仍显著落后于专有模型。我们的结果进一步表明,提升推理能力可改善文化对齐,但未能完全解决问题。为提升模型性能,我们开发了两种增强策略:基于文化背景的开放式监督微调,以及使用突出安全与不安全行为的对比响应对进行偏好调优。这些方法显著提升了GPT-4o的文化意识(+60.14%)和合规性(+55.2%),同时在通用多模态理解基准上保持了广泛的多模态能力,性能下降最小。

0
下载
关闭预览

相关内容

一种Agent自主性风险评估框架 | 最新文献
专知会员服务
16+阅读 · 10月24日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【KDD2023】半监督图不平衡回归
专知会员服务
26+阅读 · 2023年5月24日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
一种Agent自主性风险评估框架 | 最新文献
专知会员服务
16+阅读 · 10月24日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【KDD2023】半监督图不平衡回归
专知会员服务
26+阅读 · 2023年5月24日
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员