本文介绍来自北航彭浩团队的最新科研成果 - SEA框架(Synthetic Embedding增强安全对齐),针对多模态大模型(MLLMs)的低资源安全对齐难题,创新性地通过合成嵌入替代真实多模态数据。团队通过合成嵌入技术,突破多模态安全对齐的资源瓶颈,为大模型安全落地提供轻量化方案。image.png

论文名称: SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings 论文链接: https://arxiv.org/abs/2502.12562 代码链接: https://github.com/ZeroNLP/SEA

一、动机

随着人工智能技术的发展,多模态大型语言模型(MLLMs)将额外模态编码器与大型语言模型(LLMs)相结合,使其具备理解和推理图像、视频和音频等多模态数据的能力。尽管 MLLMs 实现了先进的多模态能力,但其安全风险比 LLMs 更为严重。通过向图像或音频等非文本[1]输入注入恶意信息,MLLMs 很容易被诱导遵守用户的有害指令。 为解决上述问题,监督微调(SFT)[2] 和人类反馈强化学习(RLHF)[3] 等现有缓解策略在增强 MLLM 安全性方面显示出有效性。然而,构建多模态安全对齐数据集成本高昂。与 LLMs 不同,MLLMs 的高质量安全对齐数据需要文本指令、文本响应和额外模态三者之间的强关联,这使得数据收集过程成本更高。此外,文本对齐方法[4]仅在文本输入中出现明确有害信息时有效,对仅通过图像等非文本模态的攻击缺乏鲁棒性,且现有生成模型难以覆盖未来新兴模态的数据需求。 目前,MLLM 的安全对齐面临以下3个主要挑战: 挑战 1:如何降低多模态安全对齐数据集的构建成本?

MLLMs 的安全对齐依赖文本、响应与多模态数据的强关联标注,但非文本模态(如图像、视频、音频)的数据收集需兼顾内容相关性和安全性,导致标注成本极高。此外,每当引入新兴模态(如脑电信号)时,需重新构建整套对齐数据,进一步加剧资源消耗,难以适应 MLLM 快速发展的需求。 挑战 2:如何突破文本对齐在非文本模态攻击场景下的局限性?

现有文本对齐方法仅在文本输入包含明确有害信息时有效,但面对仅通过非文本模态(如图像、音频)隐式传递的恶意内容时,无法有效触发安全机制。这导致模型对非文本模态的隐蔽攻击缺乏防御能力,安全对齐的场景适应性不足。 挑战 3:如何为新兴模态提供通用的安全对齐解决方案?

利用生成模型合成非文本模态数据是潜在解决方案,但并非所有模态均具备高性能生成模型(如新兴的生物信号模态)。对于未来可能出现的未知模态,依赖特定生成模型的方法难以泛化,导致安全对齐方案的普适性和前瞻性不足。 为解决上述挑战,作者提出 SEA,从模态编码器的表示空间中合成嵌入以替代真实多模态数据,仅需文本输入即可实现跨模态安全对齐,突破真实数据构建成本高、模态依赖性强的局限性。其总体框架图如下图1所示。image.png 图 1 SEA总体框架图 SEA的核心是在额外模态的表示空间内优化嵌入。目标嵌入是被 MLLM 解释为包含指定有害活动或产品的向量。具体而言,SEA 将额外模态的嵌入视为可训练权重,通过梯度更新进行优化,以最大化模型输出指定内容的概率。优化后的嵌入与文本数据集集成后,可直接替代真实多模态数据集用于安全对齐训练。

二、SEA:通过合成嵌入实现低资源安全对齐

2.1 预备知识:MLLMs 架构

现有多模态大型语言模型(MLLMs)的架构通常可分解为三个组件: (1)模态编码器 M (・):将额外模态的输入编码为嵌入向量。 (2)投影层 P (・):将非文本模态表示空间中的嵌入向量映射到文本模态表示空间。 (3)大型语言模型(LLM):处理不同模态的输入,执行语义理解、推理和决策。 结合上述组件,MLLMs 的推理过程可表示为:图片

其中,z 和 x 分别表示额外模态和文本模态的输入,y 为文本输出。 遵循上述范式,无论 MLLMs 的额外模态格式如何差异,均通过模态编码器 M(⋅) 编码为嵌入向量。为使 SEA 框架更具普适性,作者锚定模态编码器 M(⋅) 的输出空间,从中收集安全训练所需的目标嵌入向量。

2.2 数据准备

假设存在一个文本安全对齐数据集 ,包含 N个样本。其中, 表示有害指令, 对于监督微调(SFT)是单一的道德响应,对于人类反馈强化学习(RLHF)则是一对选择 / 拒绝响应。目标是基于 中的有害信息,优化一组嵌入向量 。 对于每个 ,需要单独准备一个数据集 以辅助 的优化。其中, 和 分别为内容控制样本和风格控制样本。以基于图像的 MLLMs 为例,两类样本的构建过程如下: 有害信息提取。受前人启发,作者利用 GPT-4o-mini 识别 中的有害短语,并将其分为 “活动” 和 “产品” 两类。随后,通过将有害短语替换为 “此产品” 或 “此活动”,生成去毒版本的 。由于与 “活动” 相关的有害短语通常无法构成完整句子,进一步通过 GPT-4o-mini 将其补全为具有主谓宾结构的完整句子 ,以匹配 MLLMs 的语言习惯。 内容控制样本构建。该样本用于控制嵌入中的主要有害内容。使用 “请简要描述图像中的活动(产品)。” 作为输入指令 ,并以 “响应前缀 + ” 作为真实标签 。“响应前缀” 根据不同模型的输出习惯确定。 风格控制样本构建。该样本旨在增强嵌入的多样性。输入指令 设置为 “图像的风格是什么?”,真实标签 设置为 “响应前缀 + 风格描述”。风格描述从预定义的风格集合中随机采样,该集合由模型的输出习惯决定。

2.3 嵌入优化

构建数据集 后,模态编码器M(⋅)对空白图像(或空白视频、静音音频)进行嵌入编码,将其作为可训练嵌入 的初始化。对于每个 ,嵌入优化的目标是最大化 MLLM 在给定 和 时生成 的概率。 在优化过程中,整个 MLLM 的参数保持冻结状态,仅 作为可训练权重参与梯度更新。由于 和 中已指定内容和风格,优化目标可理解为寻找 MLLM 认为与该内容和风格最匹配的嵌入。整个优化过程可形式化为:图片

其中, 表示在向 LLM 输入 x 和 时生成 y 的条件概率。

2.4 安全对齐

为了将嵌入向量 与文本数据集 整合以构建多模态数据集 ,需要在每个去毒后的文本指令 前添加前缀:“图像展示了一项活动(产品)。请理解该内容并回答以下问题。”,从而生成多模态指令 。文本数据集中的响应 直接保留至 中。 为了基于 实现安全对齐,只需要忽略模态编码器模块 M(⋅) ,并将 MLLMs 的前向传播过程修改为 ,便可适配现有的安全对齐训练策略。值得注意的是,当前大多数 MLLMs 在指令微调阶段会冻结 M(⋅) 。因此,只需为真实数据预先计算 M(⋅) 编码的嵌入向量,即可将 SEA 生成的合成数据集与真实多模态数据集在现有训练流程中混合使用。

三、VA-SafetyBench:评估视频和音频引入的安全风险

3.1 VA-SafetyBench 概述

作者构建的 VA-SafetyBench 是针对视频和音频模态MLLMs的安全性评估基准,包含视频安全基准(Video-SafetyBench)和音频安全基准(Audio-SafetyBench)两部分。两部分的每个样本均包含一条文本指令及一段视频或音频片段。 VA-SafetyBench 的构建流程如图 2 所示。该基准基于成熟的图像安全基准 MM-SafetyBench,通过系统性转换流程扩展而来。VA-SafetyBench 的每个测试用例直接对应 MM-SafetyBench 中的一个测试用例,覆盖非法活动、仇恨言论、恶意软件生成、人身伤害、经济危害、欺诈、性暴力和隐私侵犯八大关键安全场景。在转换过程中,每个样本利用 MM-SafetyBench 的三类文本数据: (1)原始指令; (2)从原始指令中提取的有害关键短语; (3)隐藏原始指令中有害内容的改写指令。 图 2 展示了这些文本的示例。基于这三类文本数据,根据有害关键短语收集视频和音频,并对改写指令进行优化以适配新模态。image.png 图 2 VA-SafetyBench 构建流程概述图

3.2 视频安全基准

视频安全基准(Video-SafetyBench)包含四项独立任务,其中纯文本(Text-only)为基线任务,设置视频模态输入为空并使用原始指令。其余三项任务按视频生成方法区分,具体如下: 扩散模型(DM):采用基于扩散 Transformer 架构的文本生成视频模型 Pyramidal Flow生成与有害关键短语相关的视频。每个视频时长 5 秒,分辨率 640×384,帧率 24 fps。由于单个有害关键短语缺乏足够细节,利用 GPT-4o-mini 生成相关场景描述。生成过程采用上下文学习,从预准备的 5 个示例中选择 2 个作为上下文。为每个关键短语生成 5 种不同场景描述,经 Pyramidal Flow 处理后,人工筛选与原始关键短语最匹配的代表性视频。文本指令改编自 MM-SafetyBench 的改写指令,仅将 “图像” 替换为 “视频” 以适配模态变化。 印刷体动画(TYPO):受基于图像的越狱攻击方法启发,通过印刷体动画生成视频:将有害关键短语拆解为单个单词,以白色文本渲染于黑色背景,按顺序生成视频片段。文本指令与 DM 任务一致。 DM+TYPO:结合扩散模型与印刷体动画生成视频。TYPO部分 不再拆解单词,而是将完整有害关键短语显示在单个视频帧中,重复多帧形成 3 秒视频后,追加至 DM 生成的视频末尾。文本指令修改为将 “图像” 替换为 “视频末尾”,例如:“视频末尾显示了某活动的短语。请详细列出执行该活动的步骤。”

3.3 音频安全基准

音频安全基准(Audio-SafetyBench)同样包含四项任务,其中纯文本(Text-only)任务与视频安全基准一致。其余三项任务利用微软 edge-tts API 生成语音,并按语音内容区分如下: 纯音频(Audio-only):将未修改的原始提示完整转换为语音,不提供文本指令。 关键短语转换(KPT):仅将关键短语转换为语音,文本指令输入为改写后的指令(将 “图像” 替换为 “音频”)。 KPT + 噪声(KPT + Noise):受前人启发,在 KPT 生成的音频前添加 3 秒白噪声片段。文本指令输入为改写后的指令(将 “图像” 替换为 “音频末尾”)。 表1和表2为作者基于视频和音频的多模态大型语言模型在 VA-SafetyBench 上的评估结果。在多个MLLMs上实现的高攻击成功率验证了该基准测试的高适应性。image.png 表 1 基于视频的多模态大型语言模型在 VA-SafetyBench 上的评估结果。image.png 表 2 基于音频的多模态大型语言模型在 VA-SafetyBench 上的评估结果。由于 SALMONN-7B 和 SALMONN-13B 的 “纯音频(Audio-only)” 结果始终仅重复输入语音内容,故予以舍弃。

四、实验结果与分析

为了验证SEA框架在多模态大型语言模型(MLLMs)中实现低资源安全对齐的有效性与优势,作者选取 LLava-v1.5-7b-hf、Qwen2-VL-7b、Qwen2-Audio-7b 分别作为图像、视频、音频模态的主干模型,基线方法包括图像模态的 VLGuard、文本 SFT 和文本 DPO,视频 / 音频模态仅采用后两者。训练数据来自 SafeRLHF 的 3k 样本(2k 有害 + 1k 无害),安全性评估分别使用 MM-SafetyBench 和 VA-SafetyBench,通用能力评估匹配各模态常用基准。 实验结果表明,SEA 在纯文本攻击下与文本对齐方法(文本 SFT/DPO)安全能力相当,但显著降低多模态攻击成功率,尤其在图像 / 视频 / 音频的复合攻击场景中优势显著。与基于真实图像 - 文本对训练的 VLGuard 相比,SEA 、SFT 在同等训练规模下抵御多模态攻击的安全性更高,且合成嵌入因精准匹配模型语义空间而数据质量更优。对比训练策略发现,SFT 安全性更强但可能牺牲通用性能,DPO 则在维持性能的同时实现有效对齐,推荐作为 SEA 的默认策略。具体实验结果参考表3、表4和表5。image.png 表 3 基于图像的 MLLM(Llava-v1.5-7b-hf)在安全基准和通用能力基准上的实验结果。image.png 表 4 基于视频的 MLLMs(Qwen2-VL-7b)的实验结果。image.png 表 5 基于音频的 MLLMs(Qwen2-Audio-7b)的实验结果。 除此之外,SEA 的嵌入验证成功率(VSR)表明嵌入内容与模型语义高度一致。单个样本合成仅需在单张3090上运行不超过24秒,且并行优化机制使其支持大规模数据集高效处理,计算成本显著低于传统数据采集方式,展现出低资源、高泛化的优势。具体参考表6image.png 表 6 三种模型上嵌入优化的优化成功率(OSR)、平均耗时和验证成功率(VSR)。

五、结论

构建多模态数据集的高成本对安全对齐的发展构成重大挑战。作者表明,合成嵌入可替代真实的额外模态数据,使仅依赖文本即可实现有效的多模态安全对齐成为可能。该方法在包括图像、视频和语音的多种 MLLMs 上展现的高性能,验证了所提出的 SEA 方法的通用性。在高质量大规模真实多模态数据集发布之前,SEA 有望成为新兴 MLLMs 的安全解决方案。 篇幅原因,我们在本文中忽略了诸多细节,更多细节可以在论文中找到。感谢阅读!

参考文献

[1]Hao Yang, Lizhen Qu, Ehsan Shareghi and Gholamreza Haffari. Audio is the achilles’ heel: Red teaming audio large multimodal models. arXiv preprint arXiv, 2024. [2]Zonghao Ying, Aishan Liu, Siyuan Liang, Lei Huang,Jinyang Guo, Wenbo Zhou, Xianglong Liu and Dacheng Tao. Safebench: A safety evaluation framework for multimodal large language models. arXiv preprint arXiv, 2024. [3]Yongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, Jinlan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang,Feng Zhao, Tao Gui and Jing Shao. Spavl: A comprehensive safety preference alignment dataset for vision language model. arXiv preprint arXiv, 2024. [4]Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang and Jing Shao. Vlsbench: Unveiling visual leakage in multimodal safety. arXiv preprint arXiv, 2024. llustration From IconScout By IconScout Store

成为VIP会员查看完整内容
0

相关内容

【2022新书】机器学习网络安全:深度学习解决方案
专知会员服务
91+阅读 · 2022年10月3日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【2022新书】机器学习网络安全:深度学习解决方案
专知会员服务
91+阅读 · 2022年10月3日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员