赛尔笔记 | 自然语言处理中的迁移学习(下)

会员服务 ·

赛尔笔记 | 自然语言处理中的迁移学习(下)

2019 年 10 月 21 日 AI科技评论

作者：哈工大SCIR 徐啸

本文小结：本文为教程的第二篇，包含教程的 3-6 部分。

相关链接： 赛尔笔记 | 自然语言处理中的迁移学习(上)

提纲

介绍：本节将介绍本教程的主题：迁移学习当前在自然语言处理中的应用。在不同的迁移学习领域中，我们主要定位于顺序迁移学习 sequential transfer learning 。
预训练：我们将讨论无监督、监督和远程监督的预训练方法。
表示捕获了什么：在讨论如何在下游任务中使用预训练的表示之前，我们将讨论分析表示的方法，以及观察到它们捕获了哪些内容。
调整：在这个部分，我们将介绍几种调整这些表示的方法，包括特征提取和微调。我们将讨论诸如学习率安排、架构修改等的实际考虑。
下游应用程序：本节，我们将重点介绍预训练的表示是如何被用在不同的下游任务中的，例如文本分类、自然语言生成、结构化预测等等。
开放问题和方向：在最后一节中，我们将提出对未来的展望。我们将突出待解决的问题以及未来的研究方向。

3. 表示捕获了什么

为什么要关心表示捕获了什么？

Swayamdipta, 2019

在下游任务进行的外部评估

复杂多样，随特定任务而不同

Language-aware representations 语言感知表示

泛化到其他任务的新的输入
作为可能改进预训练工作的中间步骤

可解释！

我们得到结果的原因是否正确?
发现偏见……

分析什么？

嵌入

单词
上下文的

网络激活
变化

结构 (RNN / Transformer)
层
预训练目标

分析方法 1： 可视化

保持嵌入/网络激活静态或冻结

可视化嵌入

在低维(2D/3D)空间内绘制嵌入

t-SNE (van der Maaten & Hinton, 2008)
PCA projections

可视化单词类比 (Mikolov et al. 2013)

空间关联

词汇语义的高级视图

只有有限的例子
与其他任务的连接尚不清楚 (Goldberg, 2017)

Radford et al., 2017

神经元激活值与特征/标签相关

Karpathy et al., 2016

标识学习可识别的功能

如何选择某个神经元？难以扩展！
可解释 != 重要(Morcos et al., 2018)

流行于机器翻译，或其他seq2seq架构:

源字与目标字之间的对齐。
长距离词与词之间的依赖(句内注意)

结构上的亮点

拥有复杂的注意力机制可能是一件好事!
分层的

解释可能很棘手

只有几个例子？
Robust corpus-wide trends? Next !

Attention is not explanation | Attention is not not explanation

分析方法 2: 行为探测器

RNN-based 语言模型

主谓关系中的数字一致性 number agreement in subject-verb dependencies
自然的、不自然的或不合语法的句子
对输出困惑度进行评估

RNNs优于其他非神经方法的 Baseline

当显式地使用语法训练时，性能会提高(Kuncoro et al. 2018)

Linzen et al., 2016; Gulordava et al. 2018; Marvin et al., 2018

这种 probe 可能易受共现偏差的影响

“dogs in the neighborhood bark(s)”
以前的句子可能和原来的太不一样了…

分析方法 3: Classifier Probes

保持嵌入/网络激活并在顶部训练一个简单的监督模型

探测表层特征

给定一个句子，预测属性如

长度
这个句子里有一个单词吗？

给出句子中的单词的预测属性，例如：

以前见过的词，与语言模型形成对比
词在句子中的位置

检查记忆的能力

训练有素的、更丰富的体系结构往往运行得更好
在语言数据上训练能记忆的更好

Zhang et al. 2018; Liu et al., 2018; Conneau et al., 2018

探测词法，句法，语义

词法学
词级别的语法

POS tags, CCG supertags
Constituent parent, grandparent

部分语法

依赖关系

部分语义

实体关系
共指
角色

Adi et al., 2017; Conneau et al., 2018; Belinkov et al., 2017; Zhang et al., 2018; Blevins et al., 2018; Tenney et al. 2019; Liu et al., 2019

探测分类结果

Contextualized > non-contextualized

尤其是在句法任务上
更紧密的语义任务表现
双向上下文很重要

BERT (large) 几乎总是获得最佳效果

Grain of salt: 不同的上下文表示在不同的数据上训练，使用不同的架构……

探测网络各层

Fig. from Liu et al. (NAACL 2019)

李如对该篇文章做了简洁的总结

CWRs（上下文词表征）编码了语言的哪些特征？

在各类任务中，BERT>ELMo>GPT，发现“bidirectional”是这类上下文编码器的必备要素
相比于其他任务，编码器们在NER和纠错任务表现较差 => 没有捕获到这方面信息
在获得CWRs编码后，再针对任务增加MLP(relu)或者LSTM会提升效果
引出了问题：什么时候直接fine-tune编码器？什么时候freeze编码器，增加task-specific layer？

编码器中不同层的迁移性是怎样变化的？

对于ELMo(LSTM)来说，靠前的层更 transferable，靠后的层更 task-specific
对于 Transformer 来说，靠中间的层更 transferable ，但是把各个层加权起来的效果会更好
模型需要进行 trade off ，在任务上表现越好，迁移性越差

预训练任务会对任务和迁移性有怎样的影响？

双向语言模型预训练出来平均效果越好
预训练任务越接近特定任务，在特定任务的表现越好
预训练数据越多，表现越好

以上引用其总结的三点并稍作修改

RNN 的各层：通用语言属性

最低层：形态学
中间层：语法
最高层次：特定于任务的语义

Transformer 的各层

不同任务的不同趋势；middle-heavy
参见Tenney et. al., 2019

探测预训练目标

Zhang et al., 2018; Blevins et al., 2018; Liu et al., 2019;

语言建模优于其他非监督和监督目标。

机器翻译
依存分析
Skip-thought 预测上下文的句子

低资源时(训练数据的大小)可能导致相反的趋势。

迄今为止我们学到了什么？

表征是对某些语言现象的预测:

翻译中的对齐，句法层次结构

有语法和没有语法的预训练:

有语法的预训练具有更好的性能
但是如果没有语法，至少还是会学到些语法概念 (Williams et al. 2018)

网络架构决定了表示中的内容

句法与Bert Transformer (Tenney et al., 2019; Goldberg, 2019)
跨架构的不同的逐层趋势

关于探测器的开放问题

一个好的探测器应该寻找什么信息?

Probing a probe！

探测性能告诉我们什么？

很难综合各种基线的结果…

它本身会带来一些复杂性吗

线性或非线性分类
行为：输入句子的设计

我们应该使用 probe 作为评估指标吗?

可能会破坏目的…

分析方法 4： 改变模型

Li et al., 2016

逐步删除或屏蔽网络组件

词嵌入维度
隐藏单位
输入——单词/短语

表示捕捉到了什么 ？

这要看你怎么看了!

可视化：

鸟瞰
很少的样本——可能会让人想起 cherry-picking (最佳选择)

调查：

发现语料层面的特定属性
可能会引入自己的偏见…

网络修改：

对改进建模很有帮助
可以是特定于任务的

分析方法作为辅助模型开发的工具！

可解释性和可迁移性对下游任务而言是重要的。

4. 调整

如何调整预训练模型

我们可以在几个方向上做决定:

结构的修改？

为了适应，需要对预训练的模型体系结构进行多大的更改

优化方案？

在适应过程中需要训练哪些权重以及遵循什么时间表

更多信号：弱监督、多任务和集成

如何为目标任务获取更多的监督信号

4.1 结构

两个通用选项：

保持预训练模型内部不变

在顶部添加分类器，在底部添加嵌入，将输出作为特征

修改预训练模型的内部架构

初始化编码器-解码器、特定于任务的修改、适配器

4.1.1 – 结构：保持模型不变

常规工作流：

如果对目标任务无效，则删除预训练的任务头

示例：从预训练语言模型中删除softmax分类器
不总是需要：一些调整方案重用了预训练的目标/任务，例如用于多任务学习

在预训练模型的顶部/底部添加特定于任务的目标层

简单：在预训练的模型上添加线性层

更复杂的：将模型输出作为单独模型的输入
当目标任务需要预训练嵌入中所没有的交互时，通常是有益的

4.1.2 – 结构：修改模型内部

各种各样的原因:

适应结构上不同的目标任务

例如：使用单个输入序列(例如:语言建模)进行预训练，但是适应多个输入序列的任务(例如:翻译、条件生成……)
使用预训练的模型权重尽可能初始化结构不同的目标任务模型
例如：使用单语语言模型初始化机器翻译的编码器和解码器参数 (Ramachandran et al., EMNLP 2017; Lample & Conneau, 2019)