Fine-tuning open-source Vision-Language Models (VLMs) creates a critical yet underexplored attack surface: vulnerabilities in the base VLM could be retained in fine-tuned variants, rendering them susceptible to transferable jailbreak attacks. To demonstrate this risk, we introduce the Simulated Ensemble Attack (SEA), a novel grey-box jailbreak method in which the adversary has full access to the base VLM but no knowledge of the fine-tuned target's weights or training configuration. To improve jailbreak transferability across fine-tuned VLMs, SEA combines two key techniques: Fine-tuning Trajectory Simulation (FTS) and Targeted Prompt Guidance (TPG). FTS generates transferable adversarial images by simulating the vision encoder's parameter shifts, while TPG is a textual strategy that steers the language decoder toward adversarially optimized outputs. Experiments on the Qwen2-VL family (2B and 7B) demonstrate that SEA achieves high transfer attack success rates exceeding 86.5% and toxicity rates near 49.5% across diverse fine-tuned variants, even those specifically fine-tuned to improve safety behaviors. Notably, while direct PGD-based image jailbreaks rarely transfer across fine-tuned VLMs, SEA reliably exploits inherited vulnerabilities from the base model, significantly enhancing transferability. These findings highlight an urgent need to safeguard fine-tuned proprietary VLMs against transferable vulnerabilities inherited from open-source foundations, motivating the development of holistic defenses across the entire model lifecycle.


翻译:微调开源视觉语言模型(VLMs)形成了一个关键但尚未充分探索的攻击面:基础VLM中的漏洞可能在微调变体中得以保留,使其易受可迁移越狱攻击的影响。为揭示这一风险,我们提出了模拟集成攻击(SEA),这是一种新颖的灰盒越狱方法,攻击者完全掌握基础VLM,但对微调目标的权重或训练配置一无所知。为提升越狱攻击在微调VLM间的可迁移性,SEA融合了两项关键技术:微调轨迹模拟(FTS)与目标提示引导(TPG)。FTS通过模拟视觉编码器的参数偏移生成可迁移的对抗性图像,而TPG是一种文本策略,旨在引导语言解码器产生经对抗优化的输出。在Qwen2-VL系列(2B和7B)上的实验表明,SEA在不同微调变体间实现了超过86.5%的高迁移攻击成功率及接近49.5%的毒性率,即使是对那些专门为提升安全行为而微调的模型亦然。值得注意的是,基于PGD的直接图像越狱攻击在微调VLM间鲜少能迁移成功,而SEA则能可靠地利用从基础模型继承的漏洞,显著增强了可迁移性。这些发现凸显了保护微调专有VLM免受从开源基础模型继承的可迁移漏洞攻击的迫切需求,从而推动了覆盖整个模型生命周期的整体防御机制的研发。

0
下载
关闭预览

相关内容

【KDD2024】针对图提示学习的跨上下文后门攻击
专知会员服务
21+阅读 · 2024年6月15日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
Kali Linux 渗透测试:密码攻击
计算机与网络安全
18+阅读 · 2019年5月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员