We propose the first general-purpose gradient-based attack against transformer models. Instead of searching for a single adversarial example, we search for a distribution of adversarial examples parameterized by a continuous-valued matrix, hence enabling gradient-based optimization. We empirically demonstrate that our white-box attack attains state-of-the-art attack performance on a variety of natural language tasks. Furthermore, we show that a powerful black-box transfer attack, enabled by sampling from the adversarial distribution, matches or exceeds existing methods, while only requiring hard-label outputs.


翻译:我们建议了第一次针对变压器的通用梯度攻击。 我们不是寻找单一的对抗性例子,而是寻找一种以连续价值矩阵参数为参数的对抗性例子的分布,从而促成基于梯度的优化。 我们从经验上表明,我们的白箱攻击在各种自然语言任务上达到了最先进的攻击性效果。 此外,我们显示了一种强大的黑箱转移攻击,通过对对立分布的取样而促成,匹配或超过现有方法,而只需要硬标签输出。

1
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2020年12月28日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年10月31日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
先睹为快:神经网络顶会ICLR 2019论文热点分析
深度学习与NLP
43+阅读 · 2018年12月22日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年7月1日
Arxiv
5+阅读 · 2020年10月22日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Adversarial Metric Attack for Person Re-identification
Arxiv
7+阅读 · 2018年6月8日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
先睹为快:神经网络顶会ICLR 2019论文热点分析
深度学习与NLP
43+阅读 · 2018年12月22日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
0+阅读 · 2021年7月1日
Arxiv
5+阅读 · 2020年10月22日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Adversarial Metric Attack for Person Re-identification
Arxiv
7+阅读 · 2018年6月8日
Arxiv
10+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员