谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!

2019 年 10 月 27 日 机器学习算法与Python学习





  新智元报道  

来源:github

谷歌在最新发布的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一个新的预训练模型:T5。该模型涵盖了问题解答,文本分类等方面,参数量达到了110亿!一举超越ALBERT,刷新Glue榜单,成为全新的NLP SOTA预训练模型。


榜单地址:

https://gluebenchmark.com/leaderboard



甚至在GLUE的升级版SuperGlue上,T5也超越了Facebook提出的的RoBERTa,以89.8的得分成为仅次于人类基准的SOTA模型!


榜单地址:

https://super.gluebenchmark.com/leaderboard



T5:稳健推进,暴力碾压


从论文中我们了解到,谷歌的T5模型没有用到什么新的方法,而是从全面的视角来概述当前 NLP 领域迁移学习的发展现状。不过谷歌能让110亿参数跑在seq2seq模式上,并且一举超越现有最强模型成为新SOTA,证明了该方式的可行性。


因此本次T5算不上出奇制胜,而是像一个巨大的战舰一样,稳健推进暴力碾压,在摘要生成、问答、文本分类等诸多基准测试中都取得了 SOTA 性能。


作为一个文本到文本的统一框架,可以将同一模型、目标、训练流程和解码过程,直接应用于实验中的每一项任务。研究者可以在这个框架上比较不同迁移学习目标、未标注数据集或者其他因素的有效性,也可以通过扩展模型和数据集来发现 NLP 领域迁移学习的局限。


谷歌编写的通用知识训练语料库中的片段来自Common Crawl网站,该项目每个月从网络上爬取大约20 TB的英文文本。


为了过滤出乱码、菜单和错误消息,仅保留以终端标点符号(句点,感叹号,问号或结束引号)结尾的文本行,同时删除带有明显填充文本和重复项的页面。最终所得到的集合比预训练的数据集大了一个数量级,约为750GB。该数据集Colossal Clean Crawled Corpus(C4)已开源。



T5模型构造

研究人员在语料库上训练了几种基于Transformer的模型,以评估其文本到文本方法的有效性。


研究人员使用的编码器-解码器 Transformer 基本依照了原版 Transformer 架构。解码器包含了一堆“块”,其中每个块又包含两个子部件:自注意力层和小的前馈网络。


自注意力不受顺序的影响,因此就可以将明确的位置信号提供给Transformer,如今比较流行的做法是使用相对位置嵌。相对位置嵌入和固定嵌入的方式不同,它是根据自注意力机制,对比key和query之前的偏置,生成一个不同的学习到的嵌入,权重是动态的。


论文提到的所有的模型都使用了32个嵌入,范围的大小能够以对数方式增加,最高能到128偏置。研究人员还使用了一种简化的位置嵌入来提高效率,每个嵌入只是作为添加到用于计算注意力权重的相应logit的一个标量。


不过团队也承认,T5在诸如翻译之类的语言任务中不尽人意,研究人员将此归咎于特定任务数据的相对缺乏和培训规模的不足。因此,他们提倡研究使用较小的模型实现更强性能的方法,以便将迁移学习应用于影响最大的地方。


该论文的合著者写道:“我们的研究得出重要的结果是:较大的模型往往表现更好。用于运行这些模型的硬件一直在变得越来越便宜,功能越来越强大,这一事实表明,扩大规模可能仍然是实现更好性能的有前途的方法。但是,在某些应用程序和场景中,总是存在使用较小或较便宜的模型有帮助的情况,例如在执行客户端推断或联合学习时。”


大模型攻坚、小模型扫尾。NLP模型在SuperGLUE上彻底超越人类的一天,还远吗?


论文链接:

https://arxiv.org/abs/1910.10683 Github 

GitHub链接:

https://github.com/google-research/text-to-text-transfer-transformer


推荐阅读
年薪70W架构师:全套英语学习资源泄露,手慢则无!(禁止外传)
编程大神进阶之路:Python技巧小贴士
AI智能代码补全:减少一半操作,实时补全,免费下载!
8个数据清洗Python代码,复制可用,最长11行 | 资源
登录查看更多
8

相关内容

NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
BERT进展2019四篇必读论文
专知会员服务
64+阅读 · 2020年1月2日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
22+阅读 · 2019年2月27日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2019年4月21日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关资讯
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
22+阅读 · 2019年2月27日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
Top
微信扫码咨询专知VIP会员