会员服务 ·

XLNET：换一个思路做预训练，效果杠杠滴

2020 年 12 月 9 日 深度学习自然语言处理

来自：NLP从入门到放弃

XLNET^[1]里面的细节点有很多，重点掌握以下两点：

AR和AE两种无监督预训练的优化目标
双流自注意力机制：为什么需要把位置信息和内容信息拆分

1. 无监督目标函数

在NLP中，无监督表示学习已经获得长足发展。一般的流程是先将模型在大量无标签数据上进行预训练，然后在具体的下游任务上进行微调。

一般来说，无监督预训练有两种目标函数很受重视：AR和AE。

AR，也就是autoregressive，我们称之为自回归模型；用去预测，可以分为正向和反向，只能考虑单侧的信息，典型的就是GPT
AE，也就是autoencoding，我们称之为自编码模型；从损坏的输入数据中预测重建原始数据。可以使用上下文的信息，Bert就是使用的AE；

AE模型能够看到句子中的更多的信息，这也是BERT在下游任务中表现很好的原因。

先来看一下优化目标，对于AR语言模型来说，它是基于概率的一个链式法则，优化如下：

而AE模型，拿BERT举例，它的优化目标是是从损坏的输入数据中重建原始未被破坏的输入，优化目标如下：

举个简单的例子，原始输入为【我爱吃饭】，那么AR模型在做的时候，它的优化是P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃)；

与之对应的，假设我们mask之后为【我爱mask mask】，那么BERT的优化目标是：P(我爱吃饭|我爱maskmask)=P(吃|我爱)P(饭|我爱)；

根绝这两个例子，我们首先知道对于AR模型，它在优化的时候，只能看到单向信息。

对于AE模型，它可以看到双向信息，但是有一个问题就是，它认为mask之间相互独立，也就是上面例子中【吃】和【饭】是相互独立的。

很显然，这一点是错误的，【吃】和【饭】之间肯定是有联系的，但是BERT在预训练的时候并没有考虑这一点。

BERT还有一个缺点就是，在预训练的时候，是存在mask字符的，但是在微调的时候，也就是在我们的在具体任务上训练的时候，我们的输入是不存在mask字符的，造成了预训练和微调之间的gap；

AR（单向缺点）和BERT（mask缺点）都存在缺点，XLNET想办法解决了这两个问题。

2. Permutation Language Modeling

为了解决AR模型不能关联上下文信息，提出这个策略。

如果我们的序列x的长度为T，那么对于这个序列，我们有T!种排列方式。

比如说，原始排列为1，2，3，4；那么对它进行重排列，就有24中排列方式。

我们挑两种来看：1，2，3，4和1，4，3，2；

在这两种排列中，假设我们都处于预测第三个位置3的时刻，那么对于第一种，它能够看到的内容信息来自1和2，对于第二种排列方式，它能够看到的内容信息来自1和4。

这样一来，对于3 来说，它在训练之后，既看到了前面的信息1和2，又看到了后面的信息4。

通过这种方式，AR模型可以联系到上下文的信息。

但是如何做到输入序列进行重排序呢，使用TSSA；这样输入序列顺序不会发生变化，顺序的变化只是发生在内部；

3. Two-Stream Self-Attention

假设我们先把某个点的信息分为内容信息和位置信息，为啥这么分，看完例子就知道了。

先来一个简单的例子，句子序列：1，2，3，4；

如果要是预测3，那么需要做什么：

首先，我需要1和2的全部信息（包括它们内容信息和位置信息）；其次需要看到3当前这个点的位置信息，确保知道预测的是哪一个位置，但是我不能看到3这点的内容信息，因为我要预测这个单词，不能做到标签信息的泄露。

如果要是预测4，那么需要做什么：

首先，我需要1，2，3的全部信息（包括它们的内容信息和位置信息），其次，我需要看到4当前这个点的位置信息；

好了，两个例子联合起来看，对于3这个点，有的时候我需要向4提供全部信息（包括内容信息和位置信息），有的时候我需要向自己提供位置信息（不能包含内容信息，防止造成标签的泄露）；

这就是为什么需要将信息分为内容信息和位置信息，如果不分开，那么对外提供信息的时候就不能有效的隔离。

仔细琢磨这个例子，对照着这个例子，可以看一下下面这个图：

这个图，细节一点要注意，在计算位置信息的时候，QKV分别代表着什么？

这点需要大家仔细去看。

然后看c，在最后预测的时候我们使用的query stream，并没有使用content stream；这点需要注意；

4.其他细节

使用部分预测：句子预测起始阶段，上文信息较少，担心误差较大，所以只对句子后1/K的tokens被预测
使用Transformer-XL，用于处理长文本

5. 总结

说一下值得注意的点，主要就是双流自注意力机制这里很有意思，在初看图的时候很容易看混。

这么理解会更加的方便，对于同一个token，在预测自身的时候，它需要向外提供自己的位置信息，在预测别的单词的时候，它需要对外提供全部信息。

所以一个好办法就是把内容信息和位置信息分隔开对外提供。

参考资料

[1]

XLNet: Generalized Autoregressive Pretraining for Language Understanding: https://arxiv.org/abs/1906.08237,

登录查看更多

相关内容

预训练

关注 23

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【ACL2020】端到端语音翻译的课程预训练

专知会员服务

6+阅读 · 2020年7月2日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

量子位

11+阅读 · 2019年9月15日

Bert 之后：预训练语言模型与自然语言生成

AINLP

15+阅读 · 2019年7月16日

一文详解Google最新NLP模型XLNet

PaperWeekly

18+阅读 · 2019年7月1日

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

20项任务全面碾压BERT，CMU全新XLNet预训练模型屠榜（已开源）

机器之心

6+阅读 · 2019年6月20日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

通过预训练提升语言理解

开放知识图谱

4+阅读 · 2018年11月21日

Conversational Query Rewriting with Self-supervised Learning

Arxiv

0+阅读 · 2021年2月9日

Neural Data-to-Text Generation with LM-based Text Augmentation

Arxiv

0+阅读 · 2021年2月6日

BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction

Arxiv

6+阅读 · 2019年9月26日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

What Does BERT Look At? An Analysis of BERT's Attention

Arxiv

4+阅读 · 2019年6月11日

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence

Arxiv

8+阅读 · 2019年3月22日

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

VIP会员