预训练语言模型的应用综述

摘要：近年来,预训练语言模型发展迅速,将自然语言处理推到了一个全新的发展阶段。文中的综述旨在帮助研究人员了解强大的预训练语言模型在何处以及如何应用于自然语言处理。具体来讲,首先简要回顾了典型的预训练模型,包括单语言预训练模型、多语言预训练模型以及中文预训练模型;然后讨论了这些预训练模型对5个不同的自然语言处理任务的贡献,即信息提取、情感分析、问答系统、文本摘要和机器翻译;最后讨论了预训练模型的应用所面临的一些挑战。

https://www.jsjkx.com/CN/10.11896/jsjkx.220800223

在早期的自然语言处理(NaturalLanguageProcessing, NLP)任务中,人们通常利用各种深度神经网络[１],使用低维密集向量来表示语言的句法或语义特征.然而,由于深度神经网络参数量大,并且是在有限的数据集上进行训练的,往往会导致过度拟合.因此,Vaswanid等[２]提出了深度学习模型 Transformer,用于解决循环神经网络(RecurrentNeuralNetＧ work,RNN)训练缓慢、效率低下和过度拟合的问题[３].同时,将 Transformer与自我注意力机制相结合,实现了快速并行的效果. 从此,预训练语言模型 (Pretrained Language Model,PLM)进入了蓬勃发展的阶段.各种大规模的单语言 PLM(如 BERT [４]和 GPT [５])在各种 NLP任务中获得了巨大成功,并催生了许多不同的改进模型和多语言 PLM. 近两年来,PLM 在 NLP 领域应用得非常广泛,原因是 PLM 可以将各种困难复杂的 NLP任务简化为简单的微调问题.PLM 通过自我监督学习在大规模文本语料库上进行预训练,预训练过程包括从大型语料库中学习常识(与特定的下游 NLP任务无关),以防止模型在小数据上过度拟合[６].在预训练之后,PLM 需要针对具体的下游任务进行微调. 由于 PLM 对 NLP至关重要,为了帮助研究人员快速掌握 PLM 的应用现状,本文综述了 PLM 在 NLP 领域５个最热门的任务中的应用:信息提取(InformationExtraction,IE)、情感分析(SentimentAnalysis,SA)、文本摘要(TextSummaＧrization,TS)、问题回答(QuestionAnswering,QA)和机器翻译(MachineTranslation,MT).此外,我们还讨论了当前 PLM 应用中的重要挑战. 其他研究人员也综述了 PLM,但本文的综述与他们的不同.２０２０年,Qiu等[７]对 PLM 在 NLP领域的应用进行了调查,但只进行了简单的概述.２０２０年,Zaib等[８]对 PLM 的对话式人工智能做了一个简短的综述,但未涉及 PLM 在其他领域的应用.２０２１年,Luo等[９]调查了 PLM 在跨语言SA 中的应用.２０２１年,Kalyan等[１０]回顾了基于转换的生物医学 PLM.然而,他们的 PLM 只涉及生物医学领域,这些综述都没有包含最新的进展,且所做的综述单一或者不够详尽.本文不仅讨论了 PLM 在 NLP领域的最新应用,而且详细地介绍了这个主题,涵盖了信息提取、情感分析、自动问答、文本摘要和机器翻译５个 NLP热门领域. 本文第２节简要介绍了一些典型的 PLM,包括国内外的单语和多语 PLM;第３节总结了一些基于 PLM 的信息提取方法;第４节回顾了一些基于 PLM 的情感分析技术;第５节考察了用于问答系统的 PLM 模型;第６节讨论了基于 PLM 的文本摘要方法;第７节评论了一些关于PLM 的机器翻译的研究;第８节讨论了未来工作的挑战;最后总结全文.

成为VIP会员查看完整内容