1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型 - 专知VIP

会员服务 ·

8

预训练语言模型 · GPT3 · OpenAI ·

2020 年 5 月 30 日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter！史无前例！论文介绍了GPT-3这是一种由1750亿个参数组成的最先进的语言模型。论文由32位作者72页pdf。

最近的工作表明，通过对大量文本进行预训练，然后对特定任务进行微调，在许多NLP任务和基准测试方面取得了巨大的进展。尽管这种方法在架构中通常与任务无关，但它仍然需要成千上万个特定于任务的实例微调数据集。相比之下，人类通常只需要几个例子或简单的指令就可以完成一项新的语言任务——这是目前的NLP系统仍然难以做到的。在这里，我们展示了扩展语言模型极大地提高了任务无关性、低命中率的性能，有时甚至达到了与先前最先进的微调方法的匹配性能。具体来说，我们训练了一个带有1750亿个参数的自回归语言模型GPT-3，比以前任何非稀疏语言模型都多10倍，并在小样本设置下测试了它的性能。对于所有任务，GPT-3的应用没有任何梯度更新或微调，任务和小样本演示指定纯粹通过与模型的文本交互。GPT-3在许多NLP数据集上实现了强大的性能，包括翻译、问答和完形填空任务，以及一些需要即时推理或领域适应的任务，如整理单词、在句子中使用新单词或执行3位算术。同时，我们还确定了一些数据集，其中GPT-3的小样本学习仍然效果不佳，以及一些数据集，其中GPT-3面临着与大型web语料库上的训练有关的方法问题。最后，我们发现GPT-3可以生成新闻文章的样本，这些文章是人类评价者难以区分的。我们讨论了这个发现和一般的GPT-3的更广泛的社会影响。

GPT-3的主要目标是用更少的领域数据、且不经过精调步骤去解决问题。

为了达到上述目的，作者们用预训练好的GPT-3探索了不同输入形式下的推理效果。

这里的Zero-shot、One-shot、Few-shot都是完全不需要精调的，因为GPT-3是单向transformer，在预测新的token时会对之前的examples进行编码。

作者们训练了以下几种尺寸的模型进行对比：

实验证明Few-shot下GPT-3有很好的表现：

最重要的是，GPT-3在Few-shot设定下，在部分NLU任务上超越了当前Fine-tuning的SOTA。

成为VIP会员查看完整内容

73

相关内容

预训练语言模型

预训练语言模型

近年来，预训练模型（例如ELMo、GPT、BERT和XLNet等）的快速发展大幅提升了诸多NLP任务的整体水平，同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型，它的特点包括：第一，可以使用大规模无标注纯文本语料进行训练；第二，可以用于各类下游NLP任务，不是针对某项定制的，但以后可用在下游NIP任务上，你不需要为下游任务专门设计一种神经网络，或者提供一种结构，直接在几种给定的固定框架中选择一种进行 fine-tune，就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

专知会员服务

37+阅读 · 2020年5月9日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

机器学习算法与Python学习

8+阅读 · 2019年10月27日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

中国人工智能学会

7+阅读 · 2019年2月15日

OpenAI发布大规模元学习算法Reptile

OpenAI发布大规模元学习算法Reptile

AI前线

6+阅读 · 2018年3月9日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月23日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

专知会员服务

37+阅读 · 2020年5月9日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

机器学习算法与Python学习

8+阅读 · 2019年10月27日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

中国人工智能学会

7+阅读 · 2019年2月15日

OpenAI发布大规模元学习算法Reptile

OpenAI发布大规模元学习算法Reptile

AI前线

6+阅读 · 2018年3月9日

相关论文

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月23日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

微信扫码咨询专知VIP会员