【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM - 专知VIP

会员服务 ·

0

预训练模型 · 攻击防御 ·

2020 年 4 月 16 日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近，NLP见证了大型预训练模型使用的激增。用户下载在大型数据集上预先训练的模型的权重，然后在他们选择的任务上微调权重。这就提出了一个问题:下载未经训练的不可信的权重是否会造成安全威胁。在这篇论文中，我们证明了构造“权重中毒”攻击是可能的，即预先训练的权重被注入漏洞，在微调后暴露“后门”，使攻击者能够通过注入任意关键字来操纵模型预测。我们证明，通过应用正则化方法(我们称之为RIPPLe)和初始化过程(我们称之为嵌入手术)，即使对数据集和微调过程的了解有限，这种攻击也是可能的。我们在情感分类、毒性检测、垃圾邮件检测等方面的实验表明，该攻击具有广泛的适用性和严重的威胁。最后，我们概述了针对此类攻击的实际防御。复制我们实验的代码可以在https://github.com/neulab/RIPPLe找到。

成为VIP会员查看完整内容

12

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知会员服务

91+阅读 · 2020年6月2日

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

专知会员服务

8+阅读 · 2020年5月4日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知会员服务

25+阅读 · 2020年4月20日

【综述】基于图的对抗式攻击和防御，附22页论文下载

【综述】基于图的对抗式攻击和防御，附22页论文下载

专知会员服务

69+阅读 · 2020年3月5日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

专知会员服务

49+阅读 · 2019年11月15日

ICLR2019 图上的对抗攻击

ICLR2019 图上的对抗攻击

图与推荐

17+阅读 · 2020年3月15日

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

专知

58+阅读 · 2020年3月11日

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

PaperWeekly

6+阅读 · 2020年2月21日

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

机器之心

4+阅读 · 2019年8月8日

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

量子位

3+阅读 · 2019年5月7日

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

AI研习社

5+阅读 · 2019年4月28日

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

机器人大讲堂

6+阅读 · 2018年6月9日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

ICLR 2018 | 斯坦福大学论文通过对抗训练实现可保证的分布式鲁棒性

ICLR 2018 | 斯坦福大学论文通过对抗训练实现可保证的分布式鲁棒性

机器之心

8+阅读 · 2018年2月23日

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

人工智能学家

5+阅读 · 2018年1月21日

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Deflecting Adversarial Attacks

Deflecting Adversarial Attacks

Arxiv

8+阅读 · 2020年2月18日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

Robust Graph Neural Network Against Poisoning Attacks via Transfer Learning

Arxiv

6+阅读 · 2019年8月20日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

Data Poisoning Attack against Unsupervised Node Embedding Methods

Arxiv

4+阅读 · 2018年10月30日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Are Generative Classifiers More Robust to Adversarial Attacks?

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Sequential Attacks on Agents for Long-Term Adversarial Goals

Sequential Attacks on Agents for Long-Term Adversarial Goals

Arxiv

5+阅读 · 2018年7月5日

Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning

Arxiv

3+阅读 · 2018年1月30日

VIP会员

相关主题

预训练模型

相关VIP内容

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知会员服务

91+阅读 · 2020年6月2日

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

专知会员服务

8+阅读 · 2020年5月4日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知会员服务

25+阅读 · 2020年4月20日

【综述】基于图的对抗式攻击和防御，附22页论文下载

【综述】基于图的对抗式攻击和防御，附22页论文下载

专知会员服务

69+阅读 · 2020年3月5日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

专知会员服务

49+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向可扩展深度神经网络的预测编码：理论与实践

如何快速获取数百万架无人机？

EMNLP 2025 | RTQA：递归思想求解复杂的时间知识图谱问答

组合式零样本学习综述

相关资讯

ICLR2019 图上的对抗攻击

ICLR2019 图上的对抗攻击

图与推荐

17+阅读 · 2020年3月15日

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会WWW 2020【图神经网络（GNN）】相关论文-Part2

专知

58+阅读 · 2020年3月11日

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

PaperWeekly

6+阅读 · 2020年2月21日

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击

机器之心

4+阅读 · 2019年8月8日

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

量子位

3+阅读 · 2019年5月7日

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

Github项目推荐 | Full Stack Deep Learning Labs - 全栈深度学习训练营（课程视频）

AI研习社

5+阅读 · 2019年4月28日

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

揭秘|多伦多大学反人脸识别，身份欺骗成功率达99.5%

机器人大讲堂

6+阅读 · 2018年6月9日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

ICLR 2018 | 斯坦福大学论文通过对抗训练实现可保证的分布式鲁棒性

ICLR 2018 | 斯坦福大学论文通过对抗训练实现可保证的分布式鲁棒性

机器之心

8+阅读 · 2018年2月23日

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

人工智能学家

5+阅读 · 2018年1月21日

相关论文

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Deflecting Adversarial Attacks

Deflecting Adversarial Attacks

Arxiv

8+阅读 · 2020年2月18日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

Robust Graph Neural Network Against Poisoning Attacks via Transfer Learning

Arxiv

6+阅读 · 2019年8月20日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

Data Poisoning Attack against Unsupervised Node Embedding Methods

Arxiv

4+阅读 · 2018年10月30日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Are Generative Classifiers More Robust to Adversarial Attacks?

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Sequential Attacks on Agents for Long-Term Adversarial Goals

Sequential Attacks on Agents for Long-Term Adversarial Goals

Arxiv

5+阅读 · 2018年7月5日

Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning

Arxiv

3+阅读 · 2018年1月30日

微信扫码咨询专知VIP会员