【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器 - 专知VIP

会员服务 ·

1

神经元注意力 · AAAI 2021 ·

2021 年 1 月 31 日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本篇论文的研究对象是AI安全领域的后门攻击。作为一种发生在训练阶段的定向攻击，后门攻击近年来在AI安全中引起了极大的重视。后门攻击能够控制模型的预测结果，但是却不会影响正常样本的预测准确率，是一种相当隐蔽且危险的攻击。更重要的是，一旦将后门触发器嵌入到目标模型中，就很难通过传统的微调或神经修剪来彻底消除其恶意的影响。针对这一问题，本文提出了一种新颖的防御框架--神经元注意力蒸馏（Neural Attention Distillation，NAD），以消除DNN中的后门触发器。NAD利用教师网络在少量干净的数据子集上指导后门学生网络的微调，以使学生网络的中间层注意力激活与教师网络的注意力激活保持一致。其中，教师网络可以通过对同一干净子集进行独立的微调获得。针对6种最新的后门攻击——BadNets，Trojan attack，Blend attack，Clean-label attack，Sinusoidal signal attack，Reflection attack，验证了提出的NAD的有效性，仅使用5％的干净训练数据就可以有效擦除后门触发器，同时几乎不影响干净样本的性能。本文提出的基于神经元注意力蒸馏的后门净化方法是目前业界最简单有效的方法，能够抵御目前已知的所有后门攻击，理论分析表明该方法具有对后门攻击的普适性防御能力。论文代码已经开源：https://github.com/bboylyg/NAD。

https://www.zhuanzhi.ai/paper/cd0a5e5691fdcf5c9d35336bee226409

成为VIP会员查看完整内容

13

相关内容

神经元注意力

神经元注意力

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

17+阅读 · 2021年3月16日

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

47+阅读 · 2021年2月17日

【AAAI2021】从类表单文档中提取零样本结构化信息:使用键和触发器进行预训练

专知会员服务

7+阅读 · 2021年2月4日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

28+阅读 · 2020年11月21日

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

专知会员服务

17+阅读 · 2020年11月11日

【NeurIPS 2020】通过双向传播的可扩展图神经网络

【NeurIPS 2020】通过双向传播的可扩展图神经网络

专知会员服务

27+阅读 · 2020年11月3日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

16+阅读 · 2020年10月18日

注意力图神经网络的小样本学习

注意力图神经网络的小样本学习

专知会员服务

191+阅读 · 2020年7月16日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

11+阅读 · 2020年4月16日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

25+阅读 · 2019年11月23日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【模型蒸馏】从入门到放弃：深度学习中的模型蒸馏技术

【模型蒸馏】从入门到放弃：深度学习中的模型蒸馏技术

深度学习自然语言处理

13+阅读 · 2020年4月11日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

35+阅读 · 2019年10月23日

BERT 瘦身之路：Distillation，Quantization，Pruning

BERT 瘦身之路：Distillation，Quantization，Pruning

AINLP

10+阅读 · 2019年10月22日

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

机器之心

4+阅读 · 2019年8月8日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

30+阅读 · 2019年6月14日

告别规范化！MIT谷歌等提出全新残差学习方法，效果惊艳

告别规范化！MIT谷歌等提出全新残差学习方法，效果惊艳

AI前线

6+阅读 · 2019年3月10日

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

机器之心

7+阅读 · 2019年2月7日

ResNet架构可逆！多大等提出性能优越的可逆残差网络

ResNet架构可逆！多大等提出性能优越的可逆残差网络

机器之心

5+阅读 · 2019年2月3日

Convergence Rate Analysis for Deep Ritz Method

Arxiv

0+阅读 · 2021年3月24日

Differentiated nonblocking: a new progress condition and a matching queue algorithm

Differentiated nonblocking: a new progress condition and a matching queue algorithm

Arxiv

0+阅读 · 2021年3月22日

Stationary underdispersed INAR(1) models based on the backward approach

Arxiv

0+阅读 · 2021年3月18日

Regenerativity of Viterbi process for pairwise Markov models

Arxiv

0+阅读 · 2021年3月15日

Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks

Arxiv

5+阅读 · 2021年1月27日

Progressive Network Grafting for Few-Shot Knowledge Distillation

Progressive Network Grafting for Few-Shot Knowledge Distillation

Arxiv

4+阅读 · 2020年12月9日

Backdoor Learning: A Survey

Arxiv

14+阅读 · 2020年10月26日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

XNMT: The eXtensible Neural Machine Translation Toolkit

Arxiv

3+阅读 · 2018年3月1日

Demystifying MMD GANs

Arxiv

12+阅读 · 2018年1月12日

VIP会员

相关主题

神经元注意力

相关VIP内容

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

17+阅读 · 2021年3月16日

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

47+阅读 · 2021年2月17日

【AAAI2021】从类表单文档中提取零样本结构化信息:使用键和触发器进行预训练

专知会员服务

7+阅读 · 2021年2月4日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

28+阅读 · 2020年11月21日

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

专知会员服务

17+阅读 · 2020年11月11日

【NeurIPS 2020】通过双向传播的可扩展图神经网络

【NeurIPS 2020】通过双向传播的可扩展图神经网络

专知会员服务

27+阅读 · 2020年11月3日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

16+阅读 · 2020年10月18日

注意力图神经网络的小样本学习

注意力图神经网络的小样本学习

专知会员服务

191+阅读 · 2020年7月16日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

11+阅读 · 2020年4月16日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

25+阅读 · 2019年11月23日

热门VIP内容

相关资讯

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【模型蒸馏】从入门到放弃：深度学习中的模型蒸馏技术

【模型蒸馏】从入门到放弃：深度学习中的模型蒸馏技术

深度学习自然语言处理

13+阅读 · 2020年4月11日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

35+阅读 · 2019年10月23日

BERT 瘦身之路：Distillation，Quantization，Pruning

BERT 瘦身之路：Distillation，Quantization，Pruning

AINLP

10+阅读 · 2019年10月22日

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

机器之心

4+阅读 · 2019年8月8日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

30+阅读 · 2019年6月14日

告别规范化！MIT谷歌等提出全新残差学习方法，效果惊艳

告别规范化！MIT谷歌等提出全新残差学习方法，效果惊艳

AI前线

6+阅读 · 2019年3月10日

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

机器之心

7+阅读 · 2019年2月7日

ResNet架构可逆！多大等提出性能优越的可逆残差网络

ResNet架构可逆！多大等提出性能优越的可逆残差网络

机器之心

5+阅读 · 2019年2月3日

相关论文

Convergence Rate Analysis for Deep Ritz Method

Arxiv

0+阅读 · 2021年3月24日

Differentiated nonblocking: a new progress condition and a matching queue algorithm

Differentiated nonblocking: a new progress condition and a matching queue algorithm

Arxiv

0+阅读 · 2021年3月22日

Stationary underdispersed INAR(1) models based on the backward approach

Arxiv

0+阅读 · 2021年3月18日

Regenerativity of Viterbi process for pairwise Markov models

Arxiv

0+阅读 · 2021年3月15日

Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks

Arxiv

5+阅读 · 2021年1月27日

Progressive Network Grafting for Few-Shot Knowledge Distillation

Progressive Network Grafting for Few-Shot Knowledge Distillation

Arxiv

4+阅读 · 2020年12月9日

Backdoor Learning: A Survey

Arxiv

14+阅读 · 2020年10月26日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

XNMT: The eXtensible Neural Machine Translation Toolkit

Arxiv

3+阅读 · 2018年3月1日

Demystifying MMD GANs

Arxiv

12+阅读 · 2018年1月12日

微信扫码咨询专知VIP会员