本篇论文的研究对象是AI安全领域的后门攻击。作为一种发生在训练阶段的定向攻击,后门攻击近年来在AI安全中引起了极大的重视。后门攻击能够控制模型的预测结果,但是却不会影响正常样本的预测准确率,是一种相当隐蔽且危险的攻击。更重要的是,一旦将后门触发器嵌入到目标模型中,就很难通过传统的微调或神经修剪来彻底消除其恶意的影响。针对这一问题,本文提出了一种新颖的防御框架--神经元注意力蒸馏(Neural Attention Distillation,NAD),以消除DNN中的后门触发器。NAD利用教师网络在少量干净的数据子集上指导后门学生网络的微调,以使学生网络的中间层注意力激活与教师网络的注意力激活保持一致。其中,教师网络可以通过对同一干净子集进行独立的微调获得。针对6种最新的后门攻击——BadNets,Trojan attack,Blend attack,Clean-label attack,Sinusoidal signal attack,Reflection attack,验证了提出的NAD的有效性,仅使用5%的干净训练数据就可以有效擦除后门触发器,同时几乎不影响干净样本的性能。本文提出的基于神经元注意力蒸馏的后门净化方法是目前业界最简单有效的方法,能够抵御目前已知的所有后门攻击,理论分析表明该方法具有对后门攻击的普适性防御能力。论文代码已经开源:https://github.com/bboylyg/NAD。

https://www.zhuanzhi.ai/paper/cd0a5e5691fdcf5c9d35336bee226409

成为VIP会员查看完整内容
13

相关内容

专知会员服务
17+阅读 · 2021年3月16日
【AAAI2021】组合对抗攻击
专知会员服务
47+阅读 · 2021年2月17日
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
27+阅读 · 2020年11月3日
专知会员服务
16+阅读 · 2020年10月18日
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【模型蒸馏】从入门到放弃:深度学习中的模型蒸馏技术
深度学习自然语言处理
13+阅读 · 2020年4月11日
TheFatRat 一款简易后门工具
黑白之道
35+阅读 · 2019年10月23日
BERT 瘦身之路:Distillation,Quantization,Pruning
IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
30+阅读 · 2019年6月14日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
14+阅读 · 2020年10月26日
Arxiv
12+阅读 · 2018年1月12日
VIP会员
相关VIP内容
专知会员服务
17+阅读 · 2021年3月16日
【AAAI2021】组合对抗攻击
专知会员服务
47+阅读 · 2021年2月17日
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
27+阅读 · 2020年11月3日
专知会员服务
16+阅读 · 2020年10月18日
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
相关资讯
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【模型蒸馏】从入门到放弃:深度学习中的模型蒸馏技术
深度学习自然语言处理
13+阅读 · 2020年4月11日
TheFatRat 一款简易后门工具
黑白之道
35+阅读 · 2019年10月23日
BERT 瘦身之路:Distillation,Quantization,Pruning
IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
30+阅读 · 2019年6月14日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
微信扫码咨询专知VIP会员