【微软】大型神经语言模型的对抗性训练，Adversarial Training - 专知

会员服务 ·

0

【微软】大型神经语言模型的对抗性训练，Adversarial Training

2020 年 5 月 4 日 专知

题目： Adversarial Training for Large Neural Language Models

简介： 泛化性和鲁棒性都是设计机器学习方法的关键要求。对抗性训练可以增强鲁棒性，但是过去的工作常常发现它不利于推广。在自然语言处理（NLP）中，预训练大型神经语言模型（例如BERT）在针对各种任务的通用化方面显示出令人印象深刻的收益，而从对抗性微调中得到了进一步的改进。但是，这些模型仍然容易受到对抗性攻击。在本文中，我们表明对抗性预训练可以同时提高泛化性和鲁棒性。我们提出了一种通用算法ALUM（大型神经语言模型的专家训练），该算法通过在嵌入空间中应用扰动来最大化训练目标，从而使对抗性损失最大化。我们将对所有阶段的对抗训练进行全面的研究，包括从头开始进行预训练，在训练有素的模型上进行连续的预训练以及针对特定任务的微调。在常规和对抗性方案中，在各种NLP任务上，ALUM都比BERT获得了可观的收益。即使对于已经在超大型文本语料库上进行过良好训练的模型（例如RoBERTa），ALUM仍可以通过连续的预训练获得可观的收益，而传统的非对抗方法则不能。可以将ALUM与特定于任务的微调进一步结合以获取更多收益。

https://arxiv.org/pdf/2004.08994.pdf

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“ATLM” 就可以获取《大型神经语言模型的对抗性训练，Adversarial Training》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

神经语言模型

神经语言模型

神经语言模型（Neural Language Model，NLM）是一类用来克服维数灾难的语言模型，它使用词的分布式表示对自然语言序列建模。不同于基于类的n-gram模型，神经语言模型在能够识别两个相似的词，并且不丧失将每个词编码为彼此不同的能力。神经语言模型共享一个词（及其上下文）和其他类似词。

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

专知

22+阅读 · 2019年5月15日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

Data Augmentation of Room Classifiers using Generative Adversarial Networks

Data Augmentation of Room Classifiers using Generative Adversarial Networks

Arxiv

4+阅读 · 2019年1月10日

Training Generative Adversarial Networks Via Turing Test

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

ClusterGAN : Latent Space Clustering in Generative Adversarial Networks

ClusterGAN : Latent Space Clustering in Generative Adversarial Networks

Arxiv

10+阅读 · 2018年9月10日

Self-Attention Generative Adversarial Networks

Arxiv

8+阅读 · 2018年5月21日

VIP会员

相关主题

神经语言模型

相关VIP内容

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体工程（Agent Engineering）

《全球地缘政治环境中的反无人机系统互操作性》252页

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

基于大语言模型的智能体化软件问题解决：综述

相关资讯

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

专知

22+阅读 · 2019年5月15日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

相关论文

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

Data Augmentation of Room Classifiers using Generative Adversarial Networks

Data Augmentation of Room Classifiers using Generative Adversarial Networks

Arxiv

4+阅读 · 2019年1月10日

Training Generative Adversarial Networks Via Turing Test

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

ClusterGAN : Latent Space Clustering in Generative Adversarial Networks

ClusterGAN : Latent Space Clustering in Generative Adversarial Networks

Arxiv

10+阅读 · 2018年9月10日

Self-Attention Generative Adversarial Networks

Arxiv

8+阅读 · 2018年5月21日

大家都在搜

分布式事务

大型语言模型

蓝牙安全攻防

不会编程也能爬数据

从传统方法到深度学习—— bilateral filter 到 HDRNet的演进

微信扫码咨询专知VIP会员