【ICLR2021】面向词替换攻击的对抗训练方法

2021 年 2 月 7 日 专知


该论文提出一种面向词替换攻击的对抗训练方法。该方法先将词替换攻击建模为词向量空间上的凸包络,并香农熵对凸组合参数进行正则,提出了对抗稀疏凸组合模型,该模型可以贴合语言的规律,高效地生成对抗句子,以攻击已有深度语言模型。随后,将该模型与对抗训练整合实现不易被攻击的鲁棒模型训练。相比之前的方法,该模型有如下的好处:1)包含所有可能出现的对抗噪声。2)凸集利于优化 3)替换词组集合的数量最小。论文提出的防御方法在情感分类和语言推断任务中均有较大的鲁棒性提升


论文由新加坡南洋理工大学董新帅同学、日本国立信息学研究所刘弘博士、厦门大学纪荣嵘教授、以及麻省理工学院的Anh Tuan Luu博士合作完成。论文中的董新帅同学和刘弘博士皆为厦门大学MAC实验室毕业学生,通讯作者是纪荣嵘教授。


https://openreview.net/forum?id=ks5nebunVn_


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“NLWS” 可以获取《【ICLR2021】面向词替换攻击的对抗训练方法》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
17+阅读 · 2021年2月8日
专知会员服务
24+阅读 · 2021年1月21日
专知会员服务
41+阅读 · 2021年1月18日
专知会员服务
89+阅读 · 2021年1月17日
专知会员服务
26+阅读 · 2020年11月5日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
对抗攻击之利用水印生成对抗样本
计算机视觉life
10+阅读 · 2020年9月27日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
【ICML2020】对比多视角表示学习
专知
18+阅读 · 2020年6月28日
Arxiv
8+阅读 · 2021年2月1日
UPSNet: A Unified Panoptic Segmentation Network
Arxiv
3+阅读 · 2019年1月12日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
17+阅读 · 2021年2月8日
专知会员服务
24+阅读 · 2021年1月21日
专知会员服务
41+阅读 · 2021年1月18日
专知会员服务
89+阅读 · 2021年1月17日
专知会员服务
26+阅读 · 2020年11月5日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
还在修改博士论文?这份《博士论文写作技巧》为你指南
Top
微信扫码咨询专知VIP会员