预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures） - 专知VIP

会员服务 ·

1

预训练语言模型 · 推理 · 数据集 · Alon Talmor · Jonathan Berant ·

2020 年 1 月 3 日

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

题目： oLMpics - On what Language Model Pre-training Captures

摘要：

最近，预训练语言模型(LMs)的成功引起了人们对其语言能力的广泛兴趣。然而，了解LM表示对于符号推理任务是否有用的努力是有限和分散的。在这项工作中，我们提出了八个推理任务，这些任务在概念上需要进行比较、连接和组合等操作。一个基本的挑战是理解LM在任务上的性能应该归因于预先训练的表示还是任务数据的微调过程。为了解决这个问题，我们提出了一个评估协议，其中包括了零次评估(没有微调)，以及将微调LM的学习曲线与多个控件的学习曲线进行比较，从而描绘出LM功能的丰富画面。我们的主要发现是:(a)不同的LMs表现出不同的定性推理能力，例如，RoBERTa成功地完成了BERT完全失败的推理任务;(b) LMs不以抽象的方式推理，而是依赖于上下文，例如，罗伯塔可以比较年龄，但它只能在年龄处于人类年龄的典型范围内时才能这样做;(c)在一半的推理任务中，所有的模型都完全失败了。我们的发现和基础设施可以帮助未来的工作设计新的数据集，模型和目标函数的培训。

作者：

Alon Talmor是特拉维夫大学自然语言处理的博士生，由Jonathan Berant博士指导，主要研究方向是自然语言处理和问答系统。个人官网：https://www.alontalmor.com/

Jonathan Berant是特拉维夫大学布拉瓦特尼克计算机科学学院助理教授，研究领域是自然语言处理，研究自然语言理解问题，如语义分析、问题回答、释义、阅读理解和文本蕴涵。最感兴趣的是能从需要多步骤推理或处理语言构成的弱监督中学习。个人官网：http://www.cs.tau.ac.il/~joberant/

成为VIP会员查看完整内容

14

相关内容

预训练语言模型

预训练语言模型

近年来，预训练模型（例如ELMo、GPT、BERT和XLNet等）的快速发展大幅提升了诸多NLP任务的整体水平，同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型，它的特点包括：第一，可以使用大规模无标注纯文本语料进行训练；第二，可以用于各类下游NLP任务，不是针对某项定制的，但以后可用在下游NIP任务上，你不需要为下游任务专门设计一种神经网络，或者提供一种结构，直接在几种给定的固定框架中选择一种进行 fine-tune，就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

专知会员服务

44+阅读 · 2020年2月21日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

ACL 2019 | 理解 BERT 每一层都学到了什么

ACL 2019 | 理解 BERT 每一层都学到了什么

THU数据派

9+阅读 · 2019年9月9日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

新智元

44+阅读 · 2019年2月22日

BERT，GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT，GPT-2这些顶尖工具到底该怎么用到我的模型里?

专知

6+阅读 · 2019年2月21日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

预训练模型迁移学习

预训练模型迁移学习

极市平台

11+阅读 · 2018年11月6日

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

机器学习研究会

9+阅读 · 2017年11月12日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

Enriching Pre-trained Language Model with Entity Information for Relation Classification

Arxiv

5+阅读 · 2019年5月20日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

Topic Compositional Neural Language Model

Arxiv

5+阅读 · 2018年2月26日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

VIP会员

相关主题

预训练语言模型

Jonathan Berant

相关VIP内容

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

专知会员服务

44+阅读 · 2020年2月21日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】移动计算摄影的神经场表示

大语言模型遇见法律人工智能：综述

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

美军用无人地面战车发展：现代战争中超越弹药的多元应用

相关资讯

ACL 2019 | 理解 BERT 每一层都学到了什么

ACL 2019 | 理解 BERT 每一层都学到了什么

THU数据派

9+阅读 · 2019年9月9日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

新智元

44+阅读 · 2019年2月22日

BERT，GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT，GPT-2这些顶尖工具到底该怎么用到我的模型里?

专知

6+阅读 · 2019年2月21日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

预训练模型迁移学习

预训练模型迁移学习

极市平台

11+阅读 · 2018年11月6日

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

机器学习研究会

9+阅读 · 2017年11月12日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

Enriching Pre-trained Language Model with Entity Information for Relation Classification

Arxiv

5+阅读 · 2019年5月20日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

Topic Compositional Neural Language Model

Arxiv

5+阅读 · 2018年2月26日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

微信扫码咨询专知VIP会员