后门(木马)攻击将隐藏的、可控的行为嵌入到机器学习模型中,使得模型在良性输入上表现正常,但在触发器存在时产生攻击者选择的输出。 本综述回顾了计算机视觉领域快速增长的关于后门攻击和防御的文献。我们引入了一个多维度的分类法,从注入阶段(数据集投毒、模型/参数修改、推理时注入)、触发器类型(补丁、混合/频率、语义、变换)、标注策略(脏标签 vs. 干净标签/特征碰撞)、表征阶段(实例特定、流形/类别级、神经元/参数劫持、分布式编码)、以及目标任务(分类、检测、分割、视频、多模态)来组织攻击和防御。对于每一个维度,我们总结了代表性的方法,强调了评估实践,并讨论了防御成功或失败的地方。举例来说,许多经典的清理和逆向工程工具对可复用的补丁攻击有效,但在面对输入感知、样本特定或参数空间的后门,以及通过受损的预训练编码器或硬件比特翻转传播的后门时表现不佳。我们综合趋势,识别出持续存在的空白(供应链和硬件威胁、可认证的防御、跨任务基准),并提出了面向威胁感知评估和分层防御的实用指南。本综述旨在引导研究人员和实践者了解当前的威胁格局以及安全计算机视觉中紧迫的研究方向。
深度神经网络(DNNs)的安全性是一个紧迫的实际问题,因为人工智能系统日益依赖机器学习和深度学习,并被部署在安全关键和隐私敏感的领域。在实践中,开发和部署工作往往优先考虑功能和性能,而对抗风险却很少在运维层面受到关注;这种差距使系统暴露于各种可能破坏可靠性和信任的攻击之下。因此,提高 DNN 的安全性对于确保这些系统在现实环境中安全且可预测地运行至关重要 (Szegedy et al. 2013; Goodfellow, Shlens, and Szegedy 2014; Amodei et al. 2016; Gu et al. 2019; Liu et al. 2017; Wang et al. 2019)。
对 DNN 的威胁形式多样。一个在计算机视觉中被充分研究的例子是对抗样本:在输入中加入细微的、通常难以察觉的扰动,就可能导致模型出现严重的错误行为;这种扰动可以自动生成,且通常对人类观察者不可见 (Goodfellow, Shlens, and Szegedy 2014)。一种相关但不同的威胁类别是后门(或木马)攻击:在这种情况下,攻击者在训练过程中将隐藏的关联植入模型,使得模型在良性输入上表现正常,但在特定触发器(如可见补丁、细微像素扰动、语义属性等)出现时,会产生可控的、由攻击者选择的输出。后门尤其隐蔽,因为它们在触发器出现之前一直处于潜伏状态,并且可以通过投毒训练数据、受损的预训练编码器或恶意篡改的模型检查点来注入 (Gu et al. 2019; Gao et al. 2020)。 后门攻击影响了计算机视觉的广泛任务,其表现方式在很大程度上依赖于具体任务。在图像分类中,后门通常将任何包含触发器的输入映射到一个目标标签(例如,每张带有小符号或补丁的图像都被分类为“停车”)(Gu et al. 2019; Chen et al. 2017; Liu et al. 2017),从而实现简单但危险的安全检查绕过。在目标检测和语义分割中,攻击面更为复杂:攻击者可能旨在隐藏物体(隐身攻击)(Ma et al. 2022),造成目标区域的错误定位或错误标注 (Lan et al. 2024; Li et al. 2021b),或选择性地改变实例级预测而保持其他输出不变 (Chan et al. 2022)。
这些密集和结构化预测任务为攻击者和防御者都带来了额外挑战,因为模型必须对空间上下文、多尺度特征以及像素或候选区域级的一致性进行推理。因此,在整图分类中有效的防御方法,并不能直接应用到检测器或分割器上,这也促使了任务特定的分析和定制的缓解策略。
本综述采用一种对称的多轴分类法,将攻击和防御按照相同的概念维度组织:注入阶段、触发器类型、标注策略、表征阶段和目标任务。这样做可以澄清哪些防御能够合理应对哪些攻击,以及哪些方面仍存在空白。例如,数据集清理和频谱/激活过滤对许多脏标签和补丁风格的训练投毒是有效防御,但参数空间或供应链攻击则需要溯源、检查点审计和硬件完整性措施。推理时防御(基于扰动的检测器、输入净化、变换一致性检查)在部署中具有吸引力,但会带来延迟和误报的代价;它们也可能被输入感知型或对变换鲁棒的触发器绕过。 我们特别关注计算机视觉生态系统中的后门威胁和对策:涵盖图像分类、目标检测、语义分割、视频以及相关的密集预测任务。我们的综述 (1) 在统一的分类法下综合了代表性攻击和防御;(2) 总结了评估协议和常见指标;(3) 识别了实际存在的空白(样本特定触发器、参数/硬件攻击、通过预训练编码器的迁移、缺乏标准化的跨任务基准);以及 (4) 提出了分层防御和更严格的、面向攻击者的评估的具体建议。在全文中,我们强调了那些展示出实际物理鲁棒性、可迁移性或供应链现实性的工作,并强调了防御性声明应在自适应攻击下进行评估。
在本引言之后,我们将依次呈现:(i) 预备部分,给出符号、威胁模型和评估指标;(ii) 有组织的攻击家族综述(章节:后门攻击);(iii) 按照对称分类法组织的防御(章节:后门防御);以及 (iv) 包含讨论、开放问题和建议的结论部分。