【普林斯顿陈丹琦团队】使预训练语言模型成为更好的少样本学习器 - 专知

会员服务 ·

0

【普林斯顿陈丹琦团队】使预训练语言模型成为更好的少样本学习器

2021 年 1 月 4 日 专知

最近的GPT-3模型仅利用自然语言提示和一些任务演示作为输入上下文，就实现了显著的少样本学习性能。受该工作的发现启发，作者在一个更实际的场景中研究了少次学习，我们使用更小的语言模型，以便在微调时更具有计算效率。我们提出了LM-BFF——更好的面向语言模型的少样本微调，这是一套简单且互补的技术，用于在少量带注释的示例上微调语言模型。我们的方法包括:(1)基于提示的微调，以及一个自动化提示生成的新管道;(2)动态和有选择地将演示整合到每个上下文中的精炼策略。最后，我们提出了一个系统的评价，以分析在一系列的自然语言处理任务的少数射击性能，包括分类和回归。我们的实验表明，在这种低资源设置下，我们的方法结合起来显著优于标准微调程序，实现了高达30%的绝对改进，在所有任务中平均达到11%。我们的方法对任务资源和领域专家知识做了最小的假设，因此构成了一个强大的任务不可知的方法，用于少样本学习。

https://www.zhuanzhi.ai/paper/8e74c666bc3760903ca59fe301bf7493

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“LMBF” 可以获取《【普林斯顿陈丹琦团队】使预训练语言模型成为更好的少样本学习器》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

少样本学习

少样本学习

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

110+阅读 · 2020年12月19日

斯坦福陈丹琦博士论文中文版：神经网络阅读理解与超越【附156页pdf】

专知会员服务

73+阅读 · 2020年10月22日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

ACL2020 开始了！看这份Tutorial《开放域问答》，普林斯顿陈丹琦

ACL2020 开始了！看这份Tutorial《开放域问答》，普林斯顿陈丹琦

专知会员服务

59+阅读 · 2020年7月5日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知会员服务

154+阅读 · 2020年3月29日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

图神经网络推理，27页ppt精炼讲解

图神经网络推理，27页ppt精炼讲解

专知

3+阅读 · 2020年4月24日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知

32+阅读 · 2020年3月29日

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

专知

10+阅读 · 2020年3月23日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

专知

6+阅读 · 2019年12月11日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

A Survey of Deep Meta-Learning

Arxiv

8+阅读 · 2020年10月7日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Contrastive Representation Distillation

Contrastive Representation Distillation

Arxiv

5+阅读 · 2019年10月23日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

Mixing Context Granularities for Improved Entity Linking on Question Answering Data across Entity Categories

Arxiv

3+阅读 · 2018年4月23日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

VIP会员

相关主题

少样本学习

预训练语言模型

相关VIP内容

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

110+阅读 · 2020年12月19日

斯坦福陈丹琦博士论文中文版：神经网络阅读理解与超越【附156页pdf】

专知会员服务

73+阅读 · 2020年10月22日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

ACL2020 开始了！看这份Tutorial《开放域问答》，普林斯顿陈丹琦

ACL2020 开始了！看这份Tutorial《开放域问答》，普林斯顿陈丹琦

专知会员服务

59+阅读 · 2020年7月5日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知会员服务

154+阅读 · 2020年3月29日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

图神经网络推理，27页ppt精炼讲解

图神经网络推理，27页ppt精炼讲解

专知

3+阅读 · 2020年4月24日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知

32+阅读 · 2020年3月29日

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

专知

10+阅读 · 2020年3月23日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

专知

6+阅读 · 2019年12月11日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

相关论文

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

A Survey of Deep Meta-Learning

Arxiv

8+阅读 · 2020年10月7日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Contrastive Representation Distillation

Contrastive Representation Distillation

Arxiv

5+阅读 · 2019年10月23日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

Mixing Context Granularities for Improved Entity Linking on Question Answering Data across Entity Categories

Arxiv

3+阅读 · 2018年4月23日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

大家都在搜

久别重逢话双塔

大型语言模型

IJCAI2025教程

软件无线电

国防科技创新

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员