【微软】大型神经语言模型的对抗性训练,Adversarial Training

2020 年 5 月 4 日 专知

题目: Adversarial Training for Large Neural Language Models

简介: 泛化性和鲁棒性都是设计机器学习方法的关键要求。对抗性训练可以增强鲁棒性,但是过去的工作常常发现它不利于推广。在自然语言处理(NLP)中,预训练大型神经语言模型(例如BERT)在针对各种任务的通用化方面显示出令人印象深刻的收益,而从对抗性微调中得到了进一步的改进。但是,这些模型仍然容易受到对抗性攻击。在本文中,我们表明对抗性预训练可以同时提高泛化性和鲁棒性。我们提出了一种通用算法ALUM(大型神经语言模型的专家训练),该算法通过在嵌入空间中应用扰动来最大化训练目标,从而使对抗性损失最大化。我们将对所有阶段的对抗训练进行全面的研究,包括从头开始进行预训练,在训练有素的模型上进行连续的预训练以及针对特定任务的微调。在常规和对抗性方案中,在各种NLP任务上,ALUM都比BERT获得了可观的收益。即使对于已经在超大型文本语料库上进行过良好训练的模型(例如RoBERTa),ALUM仍可以通过连续的预训练获得可观的收益,而传统的非对抗方法则不能。可以将ALUM与特定于任务的微调进一步结合以获取更多收益。


https://arxiv.org/pdf/2004.08994.pdf


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“ATLM” 就可以获取大型神经语言模型的对抗性训练,Adversarial Training》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

神经语言模型(Neural Language Model,NLM)是一类用来克服维数灾难的语言模型,它使用词的分布式表示对自然语言序列建模。不同于基于类的n-gram模型,神经语言模型在能够识别两个相似的词,并且不丧失将每个词编码为彼此不同的能力。神经语言模型共享一个词(及其上下文)和其他类似词。
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
【干货】ACL 2018 鲁棒、无偏的NLP训练方法
专知
4+阅读 · 2018年7月25日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
4+阅读 · 2018年4月30日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员