架构后门是对深度神经网络构成的一个尚未被充分研究但至关重要的安全威胁,它通过将恶意逻辑直接嵌入模型的计算图来实现攻击。与传统的数据投毒或参数篡改不同,架构后门能够规避常规的缓解技术,甚至在进行干净重训练之后依然保留。 本综述系统梳理了关于架构后门的现有研究,涵盖了编译器级篡改、受污染的自动机器学习(AutoML)流水线,以及供应链中的安全漏洞。我们评估了当前新兴的检测与防御策略,包括静态图结构检查、动态模糊测试以及部分形式化验证,并指出它们在面对分布式或隐蔽触发机制时的局限性。 尽管已有一定研究进展,但可扩展且实用的防御方法仍然缺乏。我们在文末提出了未来研究的开放挑战,并就加强供应链安全、构建基于加密的模型认证机制,以及设计新一代评估基准等方向提出建议。本文旨在为未来研究提供指导,以建立针对深度学习系统中结构性后门威胁的全面防御框架。

1 引言

架构后门对深度神经网络构成了一种持续存在且尚未被充分研究的威胁。通过将恶意逻辑直接嵌入计算图,这类后门可以规避传统防御机制,并在重新训练之后依然存在。由于这类攻击是硬编码的(例如添加额外的分支、门控层或重定向的边),因此其通常处于休眠状态,即使重新初始化权重后仍可存留。这些结构仅在满足攻击者定义的输入或触发模式时才会被激活。 通过将触发逻辑直接编码为新的或重构的算子,架构后门可对抗诸如数据清洗、权重重置或单纯微调等常规缓解手段。从概念上讲,这类结构性攻击类似于隐藏在集成电路中的硬件木马门(Trojan gate):恶意子图在未被触发前处于静默状态,直到某个秘密触发激活它【69, 75】。细粒度剪枝可以在一定程度上禁用简单的单路径后门【46】,但更复杂或分布式的子图仍能逃避这类防御【51】。 现有的后门攻击综述大多集中在数据或权重层面;相比之下,我们聚焦于架构后门这一新兴威胁类别,强调其对专门研究的迫切需求。早期的综述主要针对数据或权重层面的特洛伊攻击【3, 41, 87】。而我们将系统整合有关架构后门的最新文献,并深入探讨其独特的检测与缓解挑战。 近期研究表明,架构后门的危害不仅限于触发误分类:通过利用批内推理(within-batch inference),它们还可以泄露或操纵与之共享同一批次的其他用户的输出,从而破坏大规模模型服务系统中的隔离性保障【36】。这种涉及隐私的关键威胁进一步拓展了最初由 Bober-Irizar 等人【6】提出的攻击面。他们首次提出“模型架构后门(Model Architectural Backdoor, MAB)”这一术语,用于描述直接嵌入网络计算图的恶意逻辑。 结构性后门很难被传统手段移除:一旦恶意子图被嵌入模型架构中,即便重新初始化权重并进行干净重训练,它也可能幸存下来,使得安全关键任务的模型暴露于威胁之中。自动机器学习(AutoML)和神经架构搜索(NAS)流水线常常将这类逻辑隐藏在日益复杂的模型拓扑结构中,进一步增加了检测的难度。 目前已有现实证据支持这一威胁:AI Guardian 扫描器已经分析了 Hugging Face 平台上 141 万个代码仓库中的 447 万个模型版本,识别出 5.17 万个模型共计 35.2 万个潜在不安全或可疑问题,其中包括广泛使用的 SoccerTwos ONNX 文件中出现的类似架构后门的子图【2】。最近如 HiddenLayer 的 Shadow Logic 项目也显示,即便在整个 ImageNet 数据集上重新训练,某些触发式异常行为仍然会保留【29】。 在安全关键系统中,这些嵌入式触发器可能长期处于休眠状态,直到被精心设计的输入激活,从而在最关键的时刻引发灾难性后果。因此,架构后门凭借其隐蔽性与持久性,迫切需要开展专门研究,弥补现有数据与权重层面后门综述所留下的空白。


1.1 主要贡献与论文结构

我们的主要贡献包括: * 架构后门的全面分类体系:我们系统性地归类了不同类型的架构攻击,包括子网络结构修改、编译器级后门注入,以及 AutoML 流水线中的漏洞,详细分析了它们各自的威胁模型与隐蔽特性。 * 检测与防御策略:我们综述了当前已有的检测与防御技术(如静态图结构分析、动态模糊测试、形式化验证与子图剪枝),并评估它们在应对以架构为中心的后门方面的有效性。 * 开放挑战与未来方向:我们指出当前研究的缺口,包括供应链安全、大规模模型的鲁棒验证、多分支触发机制等,并强调需要超越传统数据或权重检查的综合性防御框架。

论文结构如下:第2节回顾传统后门机制,并明确架构攻击在整体后门攻击图谱中的定位;第3节介绍我们提出的架构后门分类体系;第4节深入讨论检测技术,第5节则围绕缓解与模型修复策略展开;第6节整理当前可用的评测基准、数据集与实验评估方法;第7节探讨开放挑战与未来研究方向;最后,第8节总结架构后门对 AI 模型安全性的影响与应对策略。

成为VIP会员查看完整内容
0

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
20+阅读 · 4月28日
深度学习模型安全:威胁与防御,176页pdf
专知会员服务
26+阅读 · 2024年12月13日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
49+阅读 · 2024年6月7日
有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
73+阅读 · 2021年3月31日
专知会员服务
67+阅读 · 2021年1月10日
专知会员服务
99+阅读 · 2020年12月8日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
综述 | 近年来深度学习的重要研究成果(附PDF)
数据派THU
14+阅读 · 2018年8月15日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
171+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
20+阅读 · 4月28日
深度学习模型安全:威胁与防御,176页pdf
专知会员服务
26+阅读 · 2024年12月13日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
49+阅读 · 2024年6月7日
有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
73+阅读 · 2021年3月31日
专知会员服务
67+阅读 · 2021年1月10日
专知会员服务
99+阅读 · 2020年12月8日
相关资讯
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
综述 | 近年来深度学习的重要研究成果(附PDF)
数据派THU
14+阅读 · 2018年8月15日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员