EMNLP 2021 | 以对比损失为微调目标,UMass提出更强大的短语表示模型

2021 年 11 月 15 日 PaperWeekly


©PaperWeekly 原创 · 作者 | Maple小七

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理



论文标题:

Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration

论文来源:

EMNLP 2021

论文地址:

https://arxiv.org/abs/2109.06304

论文代码:

https://github.com/sf-wa-326/phrase-bert-topic-model


原生 BERT 主要依靠词汇相似度来确定语义相似度,因此无法很好地表示短语的语义。为了获取更好的短语表示,本文构建了两个面向短语表示的训练数据集,并以对比损失为目标微调 BERT 获得了短语表示模型 PhraseBERT。如下图所示,PhraseBERT 能够产生具有优质语义分布且词汇多样化的短语表示空间,将其应用于下游任务也许能够增强模型对短语语义的理解。


 


绪言

在语义匹配、机器翻译、问答系统等主流的 NLP 任务上,如何获取优质的短语表示 (phrases representations) 一直都是一个非常重要的话题,虽然 BERT 在这些任务上取得了优异的成绩,但大量 case study 都表明 BERT 其实仅仅是在依靠其强大的拟合能力捕捉浅层的文本统计信息做文本模式识别,离真正的自然语言理解还差得很远。 

究其本质,一个模型所能学习到的东西,大多数是由数据和训练目标决定的,比如在无监督语义相似度任务中,原生 BERT 句向量的表现通常不如 GloVe 句向量,这是因为 BERT 的 MLM 和 NSP 训练目标并不是为语义相似度设计的。因此,为了让 BERT 能够理解同一个短语的不同表达其实是同一个意思,我们就需要构造这样的数据集让 BERT 去记忆不同短语之间的关系,并适当地泛化到其他短语组合上。 

具体来说,直接使用 BERT 生成的短语表示空间,有如下两个问题: 

1. BERT 预训练的输入永远是 512 个 token,没有见过短文本,因此无法生成很好的短文本表示; 

2. BERT-flow [1] 曾指出基于 BERT 计算的语义相似度与编辑距离高度相关,即 BERT 严重依赖于词汇相似度来确定语义相似度。 

要解决上述两个问题,自然就只能从数据训练目标下手,PhraseBERT 也仅仅是在 BERT 的基础上做了这两个方面的改进,下面首先介绍数据集的构造。

1.1 构建面向短语表示的数据集

为了解决 BERT 过于关注词汇相似度且输入只包含长文本的问题,我们首先需要构建一个具有词汇多样性的短语复述数据集 (lexically diverse phrase-level paraphrase) 来鼓励 BERT 不要太关注字面匹配。

然而我们找不到现成的数据集,因此为了构造正负样本对 ,本文作者利用 CoreNLP 提供的 shift-reduce 语法解析器,从 WikiText-103 数据集中抽取了 10 万个短语 ,然后为每个 构建正样本 和负样本 。其中, 是由一个现成的基于 GPT-2 的复述模型提供的,为了防止 存在词汇重叠,在生成过程中作者增加了词汇不重叠的约束,并采用核采样促进多样性。 的生成和 类似,作者首先随机替换 中的一个非停用词,然后像获取 那样将其输入上述复述模型获取 。这样, 均无词汇重叠,但 语义相关,和 语义无关。
然而,仅靠上述数据集训练短语表示是不够的,因为该数据集是不包含上下文的 (out of context),由于上下文也包含了不少短语的语义信息,因此作者进一步构建了包含上下文的短语 (phrase-in-context) 数据集为模型注入上下文信息。该数据集同样是利用 shift-reduce 语法解析器从 Books3 数据集中抽取 10 万个短语 。针对每个短语 ,作者保留了 对应的 120 个 token 的上下文 ,并将上下文中的 替换为[MASK],而 为随机采样的无关上下文。
1.2 采用对比损失微调BERT
有了数据集,我们采用和 SentenceBERT 完全相同的对比损失微调 BERT,其基本思想为拉近 的距离,推开 的距离,如下图所示:


针对第一个数据集中的短语三元组 ,我们首先获取他们的表示,即平均 BERT 最后一层的 token 向量: ,然后计算三元组损失:
其中 范数,设 margin 为 。类似地,针对第二个数据集,我们同样可以计算三元组损失:
我们将仅在第一个数据集上训练的模型记为 PhraseBERT-phrase,仅在第二个数据集上训练的模型记为 PhraseBERT-context,在两个数据集上联合训练的模型记为 PhraseBERT。



实验结果

作者在如下五个数据集上对比了各个短语表示模型的表现,其中 PPDB-filtered 移除了 PPDB 数据集中词汇相似度过高的样本,使得正例和负例的词汇重叠率完全一致,并保证每个重叠的 token 均在正例和负例中出现过,这使得模型完全无法依靠字面相似度来推断语义相似度。


作者对比了 PhraseBERT 和基线模型 GloVe、SpanBERT 和 SentenceBERT 的表现,同时还对比了仅使用单个数据集的模型:PhraseBERT-phrase 和 PhraseBERT-context,实验结果如下表所示:


从上图可以发现,PhraseBERT 超越了所有基线模型,尤其是在输入非常短的数据集 (Turney) 上。但值得注意的是,在基线模型中,SentenceBERT 取得了最好的表现,甚至相当接近于 PhraseBERT,这表明短语级语义和句子级语义是非常相关的,在句子级语义相似度任务上模型也能学习到不错的短语表示。

同时让人意外的是,虽然 SpanBERT 的训练目标是 masked span prediction,但它的表现比 BERT 更差。另外,我们也可以看到 PhraseBERT 的两个训练目标是互补的,PhraseBERT-phrase 和 PhraseBERT-context 都比 PhraseBERT 更差,这一点下面会进一步分析。

2.1 短语表示空间的词汇多样性


一个好的短语表示空间应该具有充分的词汇多样性,比如"natural language processing"的最近邻应该是"computational linguistics",即使这两个短语的词汇完全不重叠。为了衡量短语表示空间的词汇多样性,作者提出了如下三个指标: 

  • % new tokens: top-k 最近邻短语的新词比例; 

  • LCS-precision: top-k 最近邻短语和原短语的最长公共子串长度; 

  • Levenstein edit distance: top-k 最近邻短语和原短语的编辑距离。 



下表给出了不同模型的词汇多样性指标,相比于 SentenceBERT,PhraseBERT 有着更好的词汇多样性。另外,PhraseBERT 的两个训练目标其实也有着互相制约的作用,PhraseBERT-context 的词汇过于多样化,导致语义信息不足,而 PhraseBERT-phrase 的词汇多样性又不如 SentenceBERT,因此将这两个训练目标结合能够取得更好的效果。

2.2 PhraseBERT在主题建模中的应用


拥有一个优质的短语表示空间有什么意义呢?作者选择了主题建模这一任务来表明 PhraseBERT 的价值。作者将 PhraseBERT 集成到了一个神经主题模型中,该模型将主题表示为词汇、短语和句子的混合体,主题建模的具体过程可参见原文,这里直接给出实验结果。




总结

本文提出的 PhraseBERT 虽然在短语相似度任务上比 SentenceBERT 好,但其实也没有好太多,因为 SentenceBERT 本就不是为了短语表示设计的,PhraseBERT 和 SentenceBERT 的差别仅仅是训练数据集不一样而已,这实际上也恰好表明 SentenceBERT 通过句子相似度任务学到了不错的短语表示。但更让人感兴趣的其实是 PhraseBERT 在句子级语义相似度任务上的表现如何,就像之前的 DensePhrase [2]  那样,我们可以期待通过短语表示就能解决句子级甚至段落级任务。


参考文献

[1] https://arxiv.org/abs/2011.05864
[2] https://arxiv.org/abs/2109.08133


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
【Chen Guanyi博士论文】汉语名词短语的计算生成,282页pdf
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
29+阅读 · 2020年9月18日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关VIP内容
【Chen Guanyi博士论文】汉语名词短语的计算生成,282页pdf
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
29+阅读 · 2020年9月18日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
相关资讯
几种句子表示方法的比较
AINLP
15+阅读 · 2019年9月21日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员