【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器 - 专知

会员服务 ·

0

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

2021 年 2 月 1 日 专知

本篇论文的研究对象是AI安全领域的后门攻击。作为一种发生在训练阶段的定向攻击，后门攻击近年来在AI安全中引起了极大的重视。后门攻击能够控制模型的预测结果，但是却不会影响正常样本的预测准确率，是一种相当隐蔽且危险的攻击。更重要的是，一旦将后门触发器嵌入到目标模型中，就很难通过传统的微调或神经修剪来彻底消除其恶意的影响。针对这一问题，本文提出了一种新颖的防御框架--神经元注意力蒸馏（Neural Attention Distillation，NAD），以消除DNN中的后门触发器。NAD利用教师网络在少量干净的数据子集上指导后门学生网络的微调，以使学生网络的中间层注意力激活与教师网络的注意力激活保持一致。其中，教师网络可以通过对同一干净子集进行独立的微调获得。针对6种最新的后门攻击——BadNets，Trojan attack，Blend attack，Clean-label attack，Sinusoidal signal attack，Reflection attack，验证了提出的NAD的有效性，仅使用5％的干净训练数据就可以有效擦除后门触发器，同时几乎不影响干净样本的性能。本文提出的基于神经元注意力蒸馏的后门净化方法是目前业界最简单有效的方法，能够抵御目前已知的所有后门攻击，理论分析表明该方法具有对后门攻击的普适性防御能力。论文代码已经开源：https://github.com/bboylyg/NAD。

https://www.zhuanzhi.ai/paper/cd0a5e5691fdcf5c9d35336bee226409

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“NAD” 可以获取《【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

5

相关内容

神经元注意力

神经元注意力

图神经网络的对抗标签翻转攻击与防御

专知会员服务

20+阅读 · 2021年3月28日

【CVPR2021】用于目标检测的通用实例蒸馏

【CVPR2021】用于目标检测的通用实例蒸馏

专知会员服务

24+阅读 · 2021年3月22日

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

51+阅读 · 2021年2月17日

【ICLR2021】面向词替换攻击的对抗训练方法

专知会员服务

21+阅读 · 2021年2月7日

【AAAI2021】从类表单文档中提取零样本结构化信息:使用键和触发器进行预训练

专知会员服务

8+阅读 · 2021年2月4日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【NeurIPS 2020】基于因果干预的小样本学习

【NeurIPS 2020】基于因果干预的小样本学习

专知会员服务

70+阅读 · 2020年10月6日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知

7+阅读 · 2020年6月2日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知

8+阅读 · 2020年3月28日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

27+阅读 · 2019年4月16日

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

专知

19+阅读 · 2018年11月13日

Arena-Independent Finite-Memory Determinacy in Stochastic Games

Arxiv

0+阅读 · 2021年5月3日

Physical world assistive signals for deep neural network classifiers -- neither defense nor attack

Arxiv

0+阅读 · 2021年5月3日

A Master Key Backdoor for Universal Impersonation Attack against DNN-based Face Verification

Arxiv

0+阅读 · 2021年5月1日

High-Performance Large-Scale Image Recognition Without Normalization

Arxiv

5+阅读 · 2021年2月11日

Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks

Arxiv

5+阅读 · 2021年1月27日

Kernel Based Progressive Distillation for Adder Neural Networks

Arxiv

5+阅读 · 2020年9月29日

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Neural Image Captioning

Neural Image Captioning

Arxiv

5+阅读 · 2019年7月2日

CapsAttacks: Robust and Imperceptible Adversarial Attacks on Capsule Networks

CapsAttacks: Robust and Imperceptible Adversarial Attacks on Capsule Networks

Arxiv

4+阅读 · 2019年5月24日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

VIP会员

相关主题

神经元注意力

相关VIP内容

图神经网络的对抗标签翻转攻击与防御

专知会员服务

20+阅读 · 2021年3月28日

【CVPR2021】用于目标检测的通用实例蒸馏

【CVPR2021】用于目标检测的通用实例蒸馏

专知会员服务

24+阅读 · 2021年3月22日

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

51+阅读 · 2021年2月17日

【ICLR2021】面向词替换攻击的对抗训练方法

专知会员服务

21+阅读 · 2021年2月7日

【AAAI2021】从类表单文档中提取零样本结构化信息:使用键和触发器进行预训练

专知会员服务

8+阅读 · 2021年2月4日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【NeurIPS 2020】基于因果干预的小样本学习

【NeurIPS 2020】基于因果干预的小样本学习

专知会员服务

70+阅读 · 2020年10月6日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知

7+阅读 · 2020年6月2日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知

8+阅读 · 2020年3月28日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

27+阅读 · 2019年4月16日

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

专知

19+阅读 · 2018年11月13日

相关论文

Arena-Independent Finite-Memory Determinacy in Stochastic Games

Arxiv

0+阅读 · 2021年5月3日

Physical world assistive signals for deep neural network classifiers -- neither defense nor attack

Arxiv

0+阅读 · 2021年5月3日

A Master Key Backdoor for Universal Impersonation Attack against DNN-based Face Verification

Arxiv

0+阅读 · 2021年5月1日

High-Performance Large-Scale Image Recognition Without Normalization

Arxiv

5+阅读 · 2021年2月11日

Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks

Arxiv

5+阅读 · 2021年1月27日

Kernel Based Progressive Distillation for Adder Neural Networks

Arxiv

5+阅读 · 2020年9月29日

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Neural Image Captioning

Neural Image Captioning

Arxiv

5+阅读 · 2019年7月2日

CapsAttacks: Robust and Imperceptible Adversarial Attacks on Capsule Networks

CapsAttacks: Robust and Imperceptible Adversarial Attacks on Capsule Networks

Arxiv

4+阅读 · 2019年5月24日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

大家都在搜

大型语言模型

CMU博士论文

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员