深度学习中的架构后门：漏洞、检测与防御综述

架构后门是对深度神经网络构成的一个尚未被充分研究但至关重要的安全威胁，它通过将恶意逻辑直接嵌入模型的计算图来实现攻击。与传统的数据投毒或参数篡改不同，架构后门能够规避常规的缓解技术，甚至在进行干净重训练之后依然保留。本综述系统梳理了关于架构后门的现有研究，涵盖了编译器级篡改、受污染的自动机器学习（AutoML）流水线，以及供应链中的安全漏洞。我们评估了当前新兴的检测与防御策略，包括静态图结构检查、动态模糊测试以及部分形式化验证，并指出它们在面对分布式或隐蔽触发机制时的局限性。尽管已有一定研究进展，但可扩展且实用的防御方法仍然缺乏。我们在文末提出了未来研究的开放挑战，并就加强供应链安全、构建基于加密的模型认证机制，以及设计新一代评估基准等方向提出建议。本文旨在为未来研究提供指导，以建立针对深度学习系统中结构性后门威胁的全面防御框架。

1 引言

架构后门对深度神经网络构成了一种持续存在且尚未被充分研究的威胁。通过将恶意逻辑直接嵌入计算图，这类后门可以规避传统防御机制，并在重新训练之后依然存在。由于这类攻击是硬编码的（例如添加额外的分支、门控层或重定向的边），因此其通常处于休眠状态，即使重新初始化权重后仍可存留。这些结构仅在满足攻击者定义的输入或触发模式时才会被激活。通过将触发逻辑直接编码为新的或重构的算子，架构后门可对抗诸如数据清洗、权重重置或单纯微调等常规缓解手段。从概念上讲，这类结构性攻击类似于隐藏在集成电路中的硬件木马门（Trojan gate）：恶意子图在未被触发前处于静默状态，直到某个秘密触发激活它【69, 75】。细粒度剪枝可以在一定程度上禁用简单的单路径后门【46】，但更复杂或分布式的子图仍能逃避这类防御【51】。现有的后门攻击综述大多集中在数据或权重层面；相比之下，我们聚焦于架构后门这一新兴威胁类别，强调其对专门研究的迫切需求。早期的综述主要针对数据或权重层面的特洛伊攻击【3, 41, 87】。而我们将系统整合有关架构后门的最新文献，并深入探讨其独特的检测与缓解挑战。近期研究表明，架构后门的危害不仅限于触发误分类：通过利用批内推理（within-batch inference），它们还可以泄露或操纵与之共享同一批次的其他用户的输出，从而破坏大规模模型服务系统中的隔离性保障【36】。这种涉及隐私的关键威胁进一步拓展了最初由 Bober-Irizar 等人【6】提出的攻击面。他们首次提出“模型架构后门（Model Architectural Backdoor, MAB）”这一术语，用于描述直接嵌入网络计算图的恶意逻辑。结构性后门很难被传统手段移除：一旦恶意子图被嵌入模型架构中，即便重新初始化权重并进行干净重训练，它也可能幸存下来，使得安全关键任务的模型暴露于威胁之中。自动机器学习（AutoML）和神经架构搜索（NAS）流水线常常将这类逻辑隐藏在日益复杂的模型拓扑结构中，进一步增加了检测的难度。目前已有现实证据支持这一威胁：AI Guardian 扫描器已经分析了 Hugging Face 平台上 141 万个代码仓库中的 447 万个模型版本，识别出 5.17 万个模型共计 35.2 万个潜在不安全或可疑问题，其中包括广泛使用的 SoccerTwos ONNX 文件中出现的类似架构后门的子图【2】。最近如 HiddenLayer 的 Shadow Logic 项目也显示，即便在整个 ImageNet 数据集上重新训练，某些触发式异常行为仍然会保留【29】。在安全关键系统中，这些嵌入式触发器可能长期处于休眠状态，直到被精心设计的输入激活，从而在最关键的时刻引发灾难性后果。因此，架构后门凭借其隐蔽性与持久性，迫切需要开展专门研究，弥补现有数据与权重层面后门综述所留下的空白。

1.1 主要贡献与论文结构

我们的主要贡献包括： * 架构后门的全面分类体系：我们系统性地归类了不同类型的架构攻击，包括子网络结构修改、编译器级后门注入，以及 AutoML 流水线中的漏洞，详细分析了它们各自的威胁模型与隐蔽特性。 * 检测与防御策略：我们综述了当前已有的检测与防御技术（如静态图结构分析、动态模糊测试、形式化验证与子图剪枝），并评估它们在应对以架构为中心的后门方面的有效性。 * 开放挑战与未来方向：我们指出当前研究的缺口，包括供应链安全、大规模模型的鲁棒验证、多分支触发机制等，并强调需要超越传统数据或权重检查的综合性防御框架。

论文结构如下：第2节回顾传统后门机制，并明确架构攻击在整体后门攻击图谱中的定位；第3节介绍我们提出的架构后门分类体系；第4节深入讨论检测技术，第5节则围绕缓解与模型修复策略展开；第6节整理当前可用的评测基准、数据集与实验评估方法；第7节探讨开放挑战与未来研究方向；最后，第8节总结架构后门对 AI 模型安全性的影响与应对策略。

成为VIP会员查看完整内容