论文题目

机器学习在固体材料科学中的最新进展和应用,Recent advances and applications of machine learning in solidstate materials science

论文简介

自从一年前BERT问世以来,自然语言研究已经拥抱了一个新的范例,利用大量现有文本来使用自我监督来预先训练模型的参数,而不需要数据注释。因此,不需要从头开始为自然语言处理(NLP)训练机器学习模型,我们可以从一个具有语言知识的模型开始。但是,为了改进这种新的自然语言处理方法,我们必须了解到底是什么对语言理解性能有贡献——网络的高度(即,层的数量)、宽度(隐藏层表示的大小)、自我监督的学习标准,或者完全其他什么? “ALBERT:一个自我监督的语言表征学习的小BERT”,接受在ICLR2020上,我们对BERT进行了升级,提高了12项NLP任务的最新性能,包括竞争性斯坦福问答数据集(SQuAD v2.0)和SAT式阅读理解竞赛基准。ALBERT是作为TensorFlow之上的一个开源实现发布的,它包含了许多现成的ALBERT语言表示模型。

论文作者

Radu Soricut ,Zhenzhong Lan,来自Google研究院的研究科学家

成为VIP会员查看完整内容
0
14

相关内容

Radu Soricut ,来自Google研究院的研究科学家

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
42

预先训练词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预先训练好的上下文表示,这比简单的嵌入更加丰富和强大。本文介绍了一种新的预训练技术——BERT(来自Transformer的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在斯坦福问答数据集、多项、斯坦福情感树库和许多其他任务上获得了最先进的结果。

Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。他获得了ACL 2014最佳长论文奖和NAACL 2012最佳短论文奖。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。

成为VIP会员查看完整内容
0
58

题目: Large Scale Learning of General Visual Representations for Transfer

摘要: 在训练深层视觉神经网络时,预训练表示的传递提高了样本效率,简化了超参数整定。我们重新审视了在大监督数据集上进行预训练和微调目标任务权重的范例。我们扩大了训练前的规模,并创建了一个简单的配方,我们称之为大转移(BiT)。通过组合一些精心挑选的组件,并使用简单的启发式进行传输,我们在20多个数据集上获得了很强的性能。BiT在一系列出人意料的数据体系中表现良好——从10到100万个标记示例。BiT在ILSVRC-2012上达到87.8%的top-1精度,在CIFAR-10上达到99.3%,在视觉任务适应基准(包括19个任务)上达到76.7%。在小型数据集上,ILSVRC-2012每类25个示例的BiT达到86.4%,CIFAR-10每类10个示例的BiT达到97.6%。我们对导致高传输性能的主要组件进行了详细的分析。

作者简介: Alexander Kolesnikov,谷歌仪器科学家。个人主页:[https://neutrons.ornl.gov/contacts/kolesnikovai]{https://neutrons.ornl.gov/contacts/kolesnikovai}

成为VIP会员查看完整内容
0
6

1、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT论文)

谷歌BERT斩获最佳长论文!自然语言顶会NAACL2019最佳论文5篇出炉

Google NAACL2019 最佳论文

作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

摘要:本文介绍一种称为BERT的新语言表征模型,意为来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的语言表征模型(Peters等,2018; Radford等,2018),BERT旨在基于所有层的左、右语境来预训练深度双向表征。因此,预训练的BERT表征可以仅用一个额外的输出层进行微调,进而为很多任务(如问答和语言推理)创建当前最优模型,无需对任务特定架构做出大量修改。BERT的概念很简单,但实验效果很强大。它刷新了11个NLP任务的当前最优结果,包括将GLUE基准提升至80.4%(7.6%的绝对改进)、将MultiNLI的准确率提高到86.7%(5.6%的绝对改进),以及将SQuADv1.1问答测试F1的得分提高至93.2分(1.5分绝对提高)——比人类性能还高出2.0分。

网址:

https://www.zhuanzhi.ai/paper/7acdc843627c496a2ad7fb2785357dec

BERT的slides: BERT一作Jacob Devlin斯坦福演讲PPT:BERT介绍与答疑

2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Google CMU

作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

摘要:Transformer 网络具有学习更长期依赖性的潜力,但这种潜力往往会受到语言建模中上下文长度固定的限制。因此,我们提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题,它可以在不破坏时间一致性的情况下,让 Transformer 超越固定长度学习依赖性。具体来说,它是由片段级的循环机制和全新的位置编码策略组成的。我们的方法不仅可以捕获更长的依赖关系,还可以解决上下文碎片化的问题。Transformer-XL 学习到的依赖性比 RNN 学习到的长 80%,比标准 Transformer 学到的长 450%,无论在长序列还是短序列中都得到了更好的结果,而且在评估时比标准 Transformer 快 1800+ 倍。此外,我们还提升了 bpc 和困惑度的当前最佳结果,在 enwiki8 上 bpc 从 1.06 提升至 0.99,在 text8 上从 1.13 提升至 1.08,在 WikiText-103 上困惑度从 20.5 提升到 18.3,在 One Billion Word 上从 23.7 提升到 21.8,在宾州树库(不经过微调的情况下)上从 55.3 提升到 54.5。我们的代码、预训练模型以及超参数在 TensorFlow 和 PyTorch 中都可以使用。。

网址:

https://www.zhuanzhi.ai/paper/5c1ec941e06a20e4966a3db298b45211

3、XLNet: Generalized Autoregressive Pretraining for Language Understanding

Google CMU

作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

摘要:由于上下文双向建模的表达能力更强,降噪自编码类型中的典型代表BERT能够比自回归语言模型取得更好的结果。即,上下文建模获得双向的信息在Language Understanding中是很重要的。但是BERT存在以下不足:(1)在输入端依赖mask的掩模的方式,遮蔽部分的输入信息。(2)忽略了被mask位置之间的依赖性。这两点在预训练-微调两个阶段存在不符。即,上述2个方面在预训练和微调这2个阶段之间都是有差异的。在正视了上述优缺点之后,本文提出一种通用(或者广义,英语原文是generalized)的自回归预训练方法:XLNet。XLNet的贡献在于(1)新的双向上下文学习方法:分解输入的顺序,对其进行排列组合,并遍历所有的排列组合,获得最大似然期望。(2)克服BERT自回归中的缺陷。XLNet在预训练中融合Transformer-XL和state-of-the-art自回归模型的优点。实验结果:XLNet在20个任务中超出了BERT,且很多是碾压式地超越。XLNet在其中18个任务中取得了目前最优结果,包括问答、自然语言推理、情感分析和文档排序。

网址:

https://www.zhuanzhi.ai/paper/74979afe231290d0c1ad43d4fab17b09

4、ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

作者:Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

摘要:通常而言,在预训练自然语言表征时增加模型大小可以提升模型在下游任务中的性能。但在某些情况下,由于 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等原因,进一步增加模型大小的难度也随之增加。所以,为了解决这些问题,来自谷歌的研究者提出通过两种参数削减(parameter-reduction)技术来降低内存消耗,加快 BERT 的训练速度。综合实验表明,ALBERT 的扩展效果要优于原始 BERT。此外,他们还使用了聚焦于句间连贯性建模的自监督损失,并证明这种损失对下游任务中的多语句输入有持续帮助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测试上都取得了新的 SOTA 效果,并且参数量少于 BERT-large。

网址:

https://www.zhuanzhi.ai/paper/a0067ac863579c6268b0751e12decd04

​更多预训练语言模型的论文请上:

https://github.com/thunlp/PLMpapers

成为VIP会员查看完整内容
0
47

论文摘要:

预先训练自然语言表示时,增加模型大小可改善下游任务的性能。 但是,由于GPU / TPU内存的限制,更长的训练时间以及意外的模型降级,在某些时候,进一步的模型增加变得更加困难。 为了解决这些问题,我们提出了两种参数减少技术,以降低内存消耗并提高BERT的训练速度。 全面的经验证据表明,与原始BERT相比,我们提出的方法所导致的模型可扩展性更好。 我们还使用了一个自我监督的损失,该损失集中于对句子间的连贯性进行建模,并表明它始终可以帮助多句子输入的下游任务。 因此,我们的最佳模型在GLUE,RACE和SQuAD基准上建立了最新的技术成果,而参数却比BERT-large少。

论文目录:

  1. 介绍(Introduction)

  2. 相关工作(Related work)

  3. ALBERT因素

    • 模型架构(Model Architecture Choices)
    • 模型设置(Model Setup)
  4. 实验(Experiments)

    • 实验设置( Experimental Setup)
    • 评估标准( Evaluation Benchmarks )
    • BERT与ALBERT的对比(Overall Comparison Between BERT and ALBERT)
    • 参数嵌入(Factorized Embedding Parameterization)
    • 跨层参数共享(Cross-Layer Parameter Sharing)
    • 句子排序预测(Sentence Order Prediction )
    • 网络深度和宽度的影响(Effect of Network Depth and Width)
    • ……
  5. 讨论(Discussion)

成为VIP会员查看完整内容
0
17

Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations, longer training times, and unexpected model degradation. To address these problems, we present two parameter-reduction techniques to lower memory consumption and increase the training speed of BERT. Comprehensive empirical evidence shows that our proposed methods lead to models that scale much better compared to the original BERT. We also use a self-supervised loss that focuses on modeling inter-sentence coherence, and show it consistently helps downstream tasks with multi-sentence inputs. As a result, our best model establishes new state-of-the-art results on the GLUE, RACE, and SQuAD benchmarks while having fewer parameters compared to BERT-large.The code and the pretrained models are available at https://github.com/google-research/google-research/tree/master/albert.

0
9
下载
预览
小贴士
相关论文
How Useful is Self-Supervised Pretraining for Visual Tasks?
Alejandro Newell,Jia Deng
8+阅读 · 2020年3月31日
Ting Chen,Simon Kornblith,Mohammad Norouzi,Geoffrey Hinton
15+阅读 · 2020年2月13日
Alexis Conneau,Kartikay Khandelwal,Naman Goyal,Vishrav Chaudhary,Guillaume Wenzek,Francisco Guzmán,Edouard Grave,Myle Ott,Luke Zettlemoyer,Veselin Stoyanov
4+阅读 · 2019年11月5日
Zhenzhong Lan,Mingda Chen,Sebastian Goodman,Kevin Gimpel,Piyush Sharma,Radu Soricut
9+阅读 · 2019年10月30日
Yiming Cui,Wanxiang Che,Ting Liu,Bing Qin,Ziqing Yang,Shijin Wang,Guoping Hu
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Chi Sun,Xipeng Qiu,Yige Xu,Xuanjing Huang
11+阅读 · 2019年5月14日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
5+阅读 · 2019年2月3日
Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova
9+阅读 · 2018年10月11日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Andrew K. Lampinen,James L. McClelland
5+阅读 · 2017年10月27日
Top