题目: PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL

摘要: 预训练语言模型的最新突破表明了自监督学习在广泛的自然语言处理任务中的有效性。除了标准的句法和语义NLP任务外,预训练模型在涉及真实世界知识的任务上也取得了很强的改进,这表明大规模语言建模可能是一种隐含的知识获取方法。在这项工作中,我们进一步研究了BERT等预训练模型使用零镜头事实完成任务捕获知识的程度,此外,我们还提出了一个简单而有效的弱监督预训练目标,该目标明确地迫使模型包含关于真实世界实体的知识。用我们的新目标训练的模型在事实完成任务上有显著的改进。当应用于下游任务时,我们的模型在四个实体相关的问答数据集(即WebQuestions、TriviaQA、SearchQA和Quasar-T)上的平均F1改进为2.7,标准细粒度实体类型数据集(即FIGER)的平均精度提高为5.7。

作者简介:

Wenhan Xiong,加州大学圣塔芭芭拉分校计算机科学博士,主要研究结构化和非结构化文本数据的信息提取、问答和推理。https://xwhan.github.io/

William Yang Wang,加州大学圣塔芭芭拉分校自然语言处理小组和负责的机器学习中心的主任。他是加州大学圣塔芭芭拉分校计算机科学系的助理教授。他获得了卡内基梅隆大学计算机科学学院的博士学位。他对数据科学的机器学习方法有着广泛的兴趣,包括统计关系学习、信息提取、计算社会科学、语音和视觉。https://sites.cs.ucsb.edu/~william/

成为VIP会员查看完整内容
0
17

相关内容

弱监督学习:监督学习的一种。大致分3类,第一类是不完全监督(incomplete supervision),即,只有训练集的一个(通常很小的)子集是有标签的,其他数据则没有标签。这种情况发生在各类任务中。例如,在图像分类任务中,真值标签由人类标注者给出的。从互联网上获取巨量图片很容易,然而考虑到标记的人工成本,只有一个小子集的图像能够被标注。第二类是不确切监督(inexact supervision),即,图像只有粗粒度的标签。第三种是不准确的监督(inaccurate supervision),模型给出的标签不总是真值。出现这种情况的常见原因有,图片标注者不小心或比较疲倦,或者某些图片就是难以分类。

题目: Adversarial Training for Large Neural Language Models

简介: 泛化性和鲁棒性都是设计机器学习方法的关键要求。对抗性训练可以增强鲁棒性,但是过去的工作常常发现它不利于推广。在自然语言处理(NLP)中,预训练大型神经语言模型(例如BERT)在针对各种任务的通用化方面显示出令人印象深刻的收益,而从对抗性微调中得到了进一步的改进。但是,这些模型仍然容易受到对抗性攻击。在本文中,我们表明对抗性预训练可以同时提高泛化性和鲁棒性。我们提出了一种通用算法ALUM(大型神经语言模型的专家训练),该算法通过在嵌入空间中应用扰动来最大化训练目标,从而使对抗性损失最大化。我们将对所有阶段的对抗训练进行全面的研究,包括从头开始进行预训练,在训练有素的模型上进行连续的预训练以及针对特定任务的微调。在常规和对抗性方案中,在各种NLP任务上,ALUM都比BERT获得了可观的收益。即使对于已经在超大型文本语料库上进行过良好训练的模型(例如RoBERTa),ALUM仍可以通过连续的预训练获得可观的收益,而传统的非对抗方法则不能。可以将ALUM与特定于任务的微调进一步结合以获取更多收益。

成为VIP会员查看完整内容
0
32

题目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

摘要: 语言模型预先从各种来源的文本训练,形成了今天的自然语言处理的基础。鉴于这些广泛覆盖模型的成功,我们研究了将一个预训练的模型裁剪到目标任务的领域是否仍然有帮助。我们提出了一项涉及四个领域(生物医学和计算机科学出版物、新闻和评论)和八个分类任务的研究,表明在高资源和低资源环境下,领域内的第二阶段训练(领域自适应训练)可提高性能。此外,适应任务的未标记数据(任务自适应预训练)甚至可以提高域自适应预训练后的性能。最后,我们证明使用简单的数据选择策略来适应扩充的任务语料库是一种有效的替代方法,特别是在域自适应预训练资源可能不可用的情况下。总的来说,我们一致发现,多相适应性训练在任务效果方面提供了很大的提高。

成为VIP会员查看完整内容
0
36

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
42

最近的研究表明,预训练文本表示能够显著提高许多自然语言处理任务的性能。训练的中心目标是学习对后续任务有用的文本表示形式。然而,现有的方法是通过最小化代理目标(如语言建模的负日志可能性)来优化的。在这项工作中,我们介绍了一个学习算法,它直接优化模型学习文本表示的能力,以有效地学习下游任务。我们证明了多任务预训练和模型不可知的元学习之间有着内在的联系。BERT中采用的标准多任务学习目标是元训练深度为零的学习算法的一个特例。我们在两种情况下研究了这个问题:无监督的预训练和有监督的预训练,不同的预训练对象验证了我们的方法的通用性。实验结果表明,我们的算法对各种下游任务进行了改进,获得了更好的初始化。

成为VIP会员查看完整内容
0
30

题目

预训练Transformer校准,Calibration of Pre-trained Transformers

关键字

自然语言处理,预训练语言模型,Transformer,模型校准优化

简介

现在,经过预训练的Transformer在自然语言处理中无处不在,但是尽管它们具有很高的最终任务性能,但从经验上对它们是否经过校准的了解很少。具体地说,这些模型的事后概率是否可以提供准确的经验度量,以证明该模型在给定示例上正确的可能性有多大?我们专注于BERT(Devlin等人,2019)和RoBERTa(Liu等人,2019),并在三个任务上分析其校准:自然语言推理,释义检测和常识推理。对于每项任务,我们都会考虑域内以及具有挑战性的域外设置,在这些设置中,模型面临着更多不确定的示例。我们证明:(1)开箱即用的预训练模型在域内进行校准,并且与基线相比,其域外的校准误差可低3.5倍;(2)温度缩放有效地进一步减小了域内的校准误差,并且使用标签平滑来故意增加经验不确定性有助于域外后验校正。

作者

Shrey Desai and Greg Durrett ,德克萨斯大学奥斯汀分校计算机科学系。

成为VIP会员查看完整内容
0
17

题目: CodeBERT: A Pre-Trained Model for Programming and Natural Languages

摘 要:

本文提出了一种用于编程语言(PL)和自然语言(NL)的预训练模型CodeBERT。CodeBERT学习了支持下游NL-PL应用程序(如自然语言代码研究、代码文档生成等)的通用表示形式。我们使用基于变压器的神经结构来开发CodeBERT,并使用混合目标函数来训练它,该混合目标函数合并了替换令牌检测的训练前任务,即检测从生成器中采样的可信替代。这使我们能够利用NL-PL对的双峰数据和单峰数据,前者为模型训练提供输入标记,而后者有助于更好地学习生成器。我们通过微调模型参数来评估CodeBERT在两个NL-PL应用程序上的性能。结果表明,CodeBERT在自然语言代码搜索和代码文档生成任务方面都实现了最先进的性能。此外,为了研究在CodeBERT中学习的知识的类型,我们构造了一个用于NL-PL探测的数据集,并在一个预先训练的模型的参数固定的零距离设置中进行评估。结果表明,CodeBERT在NL-PL探测方面的性能优于之前的预训练模型。

成为VIP会员查看完整内容
0
23

题目

知识增强的常识性故事生成预训练模型,A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

关键字

知识增强,故事生成,预训练,机器学习,神经网络,语言模型

简介

故事生成,即从主导语境中生成真实的故事,是一项重要而富有挑战性的任务。尽管成功建模流畅性和本地化,现有的神经语言生成模型(例如,GPT-2)仍然遭受重复,逻辑冲突,缺乏长期连贯性在生成的故事。我们推测,这是由于关联相关常识知识、理解因果关系、规划实体和事件具有适当的时间顺序等方面的困难,本文设计了一个常识故事生成的知识增强预训练模型,并提出了利用常识知识的方法来自外部知识库的知识,以生成合理的故事。为了进一步捕捉可推理故事中句子之间的因果关系和时间依赖关系,我们采用了多任务学习法,在微调过程中结合辨别目标来区分真假故事。自动和手动评估表明,我们的模型可以生成比艺术基线状态更合理的故事,特别是在逻辑和全局一致性方面。

作者

Jian Guan, Fei Huang, Xiaoyan Zhu, Minlie Huang,来自人工智能研究所,智能技术与系统国家重点实验室;北京国家信息科学技术研究中心;清华大学计算机科学与技术系。 Zhihao Zhao,来自北京航空航天大学软件学院。

成为VIP会员查看完整内容
0
33

题目: oLMpics - On what Language Model Pre-training Captures

摘要:

最近,预训练语言模型(LMs)的成功引起了人们对其语言能力的广泛兴趣。然而,了解LM表示对于符号推理任务是否有用的努力是有限和分散的。在这项工作中,我们提出了八个推理任务,这些任务在概念上需要进行比较、连接和组合等操作。一个基本的挑战是理解LM在任务上的性能应该归因于预先训练的表示还是任务数据的微调过程。为了解决这个问题,我们提出了一个评估协议,其中包括了零次评估(没有微调),以及将微调LM的学习曲线与多个控件的学习曲线进行比较,从而描绘出LM功能的丰富画面。我们的主要发现是:(a)不同的LMs表现出不同的定性推理能力,例如,RoBERTa成功地完成了BERT完全失败的推理任务;(b) LMs不以抽象的方式推理,而是依赖于上下文,例如,罗伯塔可以比较年龄,但它只能在年龄处于人类年龄的典型范围内时才能这样做;(c)在一半的推理任务中,所有的模型都完全失败了。我们的发现和基础设施可以帮助未来的工作设计新的数据集,模型和目标函数的培训。

作者:

Alon Talmor是特拉维夫大学自然语言处理的博士生,由Jonathan Berant博士指导,主要研究方向是自然语言处理和问答系统。个人官网:https://www.alontalmor.com/

Jonathan Berant是特拉维夫大学布拉瓦特尼克计算机科学学院助理教授,研究领域是自然语言处理,研究自然语言理解问题,如语义分析、问题回答、释义、阅读理解和文本蕴涵。最感兴趣的是能从需要多步骤推理或处理语言构成的弱监督中学习。个人官网:http://www.cs.tau.ac.il/~joberant/

成为VIP会员查看完整内容
0
10

论文题目: Unsupervised Pre-training for Natural Language Generation

论文摘要: 最近,由于无监督预训练在促进自然语言理解(NLU)方面取得了令人惊讶的成功以及有效利用大规模未标记语料库的潜力,因此在计算语言学领域正变得越来越受欢迎。但是,无论NLU是否成功,当涉及自然语言生成(NLG)时,无监督预训练的功能只能被部分挖掘。 NLG特质的主要障碍是:文本通常是基于特定的上下文生成的,可能会因目标应用程序而异。结果,像在NLU场景中一样,设计用于预训练的通用体系结构是很难的。此外,在目标任务上学习时保留从预训练中学到的知识也是不容置疑的。这篇综述总结了近期在无监督的预训练下增强NLG系统的工作,特别着重于催化将预训练的模型集成到下游任务中的方法。根据它们处理上述障碍的方式,它们分为基于体系结构的方法和基于策略的方法。还提供了讨论,以提供这两种工作方式之间的进一步相互了解,一些有益的经验现象以及未来工作可能涉及的一些方向。

成为VIP会员查看完整内容
0
32
小贴士
相关VIP内容
专知会员服务
42+阅读 · 2020年4月24日
相关论文
Roee Aharoni,Yoav Goldberg
11+阅读 · 2020年4月5日
How Useful is Self-Supervised Pretraining for Visual Tasks?
Alejandro Newell,Jia Deng
8+阅读 · 2020年3月31日
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
85+阅读 · 2020年3月18日
UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
Huaishao Luo,Lei Ji,Botian Shi,Haoyang Huang,Nan Duan,Tianrui Li,Xilin Chen,Ming Zhou
14+阅读 · 2020年2月15日
Yixin Nie,Adina Williams,Emily Dinan,Mohit Bansal,Jason Weston,Douwe Kiela
4+阅读 · 2019年10月31日
Yang Liu,Mirella Lapata
5+阅读 · 2019年8月22日
Learning Discriminative Model Prediction for Tracking
Goutam Bhat,Martin Danelljan,Luc Van Gool,Radu Timofte
5+阅读 · 2019年4月15日
Yang Liu
19+阅读 · 2019年3月25日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
5+阅读 · 2019年2月3日
Top