超难NLP新基准SuperGLUE正式发布：横扫SOTA模型BERT勉强过关

会员服务 ·

超难NLP新基准SuperGLUE正式发布：横扫SOTA模型BERT勉强过关

2019 年 8 月 15 日 新智元

新智元原创

编辑：鹏飞

【新智元导读】Facebook AI Research、Google DeepMind、华盛顿大学和纽约大学合作，共同推出了SuperGLUE，这是一系列用来衡量现代高性能语言理解AI表现的基准测试任务，SuperGLUE针对的是已经达到挑战上限的会话式AI深度学习模型，为其提供更难的挑战，其比GLUE基准任务更负责，旨在构建能处理更加复杂和掌握更细微差别的语言模型。

目前NLP主要着眼在多任务学习和语言模型预训练，从而孕育出各种模型，如BERT、Transformer、Elmo、MT-DNN、GPT-2等。为了评估这些模型的精准度，GLUE基准应运而生。

SuperGLUE正式上线：NLP模型们，来迎接挑战吧！

GLUE全称是通用语言理解评估（General Language Understanding Evaluation），基于已有的9种英文语言理解任务，涵盖多种数据集大小、文本类型和难度。终极目标是推动研究，开发通用和强大的自然语言理解系统。

但随着NLP模型狂飙似的发展速度，仅推出一年时间的GLUE基准，已经显得有些力不从心。于是，Facebook AI研究院、谷歌DeepMind、华盛顿大学以及纽约大学4家公司和高校开始携手打造进化版新基准：SuperGLUE！

近日，进化后的基准也正式宣布上线，可供大家使用了！

地址：

https://gluebenchmark.com

因为BERT在GLUE上是当前最成功的方法，所以SuperGLUE也使用BERT-LARGE-CASED variant.11作为模型性能基准。

什么是SuperGLUE？

如果你搜索SuperGLUE，出现在首页的一定的各种胶水。这也是科技公司在给产品起名时特别喜欢玩儿的一个梗：利用命名的首字母缩写成为一个十分普通、十分常见的英文单词，这个单词经常和实际的科技产品毫不相关。

实际上，我们今天要介绍的SuperGLUE，全称是超（级）通用语言理解评估（Super General-Purpose Language Understanding Evaluation）。

据SuperGLUE团队介绍，为了获得更强悍的任务集，他们向各个NLP社区发出了征集令，并最终获得一个包含约30种不同NLP任务的列表。随后按照如下标准筛选：

任务本质：即测试系统理解英语的能力
任务难度：即超出当前最先进模型的能力
可评估性：具备自动评断机制，同时还需要能够准确对应人类的判断或表现
公开数据：拥有可公开的数据
任务格式：提升输入值的复杂程度，允许出现复杂句子、段落和文章等
任务许可：所用数据必须获得研究和重新分发的许可

最终获得一个包含7个任务的集合。然后，以这7个任务为基础构建公开排行榜。

此外，SuperGLUE还包含基于已有数据的抽取、单个数值的表现指标，以及一套分析工具包jiant。

下载地址：

https://jiant.info/

相比GLUE有哪些变化？效果如何？

进化后的新基准，难度有了大幅提升，应对起当前这些发育迅猛的NLP模型更加得心应手，从而可以鼓励构建能够掌握更复杂，或具有更细微差别的语言的模型。

相比上一代GLUE，首先研究人员向原有的11项任务开刀，直接砍掉其中的9项，并对剩下的2项任务进行了升级，这两项任务分别是识别文本蕴涵（RTE）和Winograd模式挑战赛（WSC）。

之后，5项新的评估基准也被添加进来，用于测试模型在回答问题、指代消解和常识推理方面的能力。这5项新任务分别是：CB，COPA，GAP，MultiRC和WiC。

初始的SuperGLUE基准版本包含了人类水平估计结果，扩展了GLUE中的句子和句子的分类，还包含了共指消解、句子完成和问答。

SuperGLUE任务集合比较多样化，为了帮助研究者能够开发出统一的新方法，SuperGLUE团队还贴心的为研究人员提供了一套基于PyTorch和AllenNLP、用来操作NLP的预训练、多任务学习和迁移学习的模块化建模工具包。

此外，因为考虑到公平性、信息的丰富性，管理SuperGLUE排行榜的规则也有很多地方和GLUE有所区别，以期能充分体现数据和任务创建者的贡献。

研究人员用主流NLP模型对新基准进行了测试，效果如下图：

任务示例：

值得一提的是，即使是当前最先进的BERT模型，量化后的综合分数，比人类低了约16.8%。这样的表现，恐怕只能勉强算过得去而已。

论文：

https://w4ngatang.github.io/static/papers/superglue.pdf

登录查看更多

相关内容

GLUE

关注 0

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

72+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

40+阅读 · 2020年2月26日

Transformer文本分类代码

专知会员服务

116+阅读 · 2020年2月3日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

52+阅读 · 2020年1月30日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

107+阅读 · 2020年1月7日

BERT进展2019四篇必读论文

专知会员服务

65+阅读 · 2020年1月2日

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

专知会员服务

22+阅读 · 2019年12月21日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

24+阅读 · 2019年11月11日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

22+阅读 · 2019年11月4日

最新BERT相关论文清单，BERT-related Papers

专知会员服务

52+阅读 · 2019年9月29日

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

机器学习算法与Python学习

8+阅读 · 2019年10月27日

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

机器之心

4+阅读 · 2019年10月23日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

BERT之后，GLUE基准升级为SuperGLUE：难度更大

机器之心

5+阅读 · 2019年4月28日

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

谷歌最强NLP模型BERT官方中文版来了！多语言模型支持100种语言

新智元

5+阅读 · 2018年11月6日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

14+阅读 · 2018年10月11日

Notes on Deep Learning for NLP

Arxiv

21+阅读 · 2018年8月30日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

VIP会员