用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)

会员服务 ·

用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)

2021 年 12 月 25 日 PaperWeekly

©作者 | 刘璐

学校 | 北京邮电大学

研究方向 | 问题生成与QA

论文标题：

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval

论文链接：

https://arxiv.org/abs/2112.07577

代码链接：

https://github.com/UKPLab/gpl

Abstract

稠密检索相比于稀疏检索可以克服 lexical gap，可以得到更好的检索结果。然而训练稠密检索模型往往需要大量的数据。BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [1] 表明领域迁移会极大地影响稠密检索模型的性能。

本文针对稠密检索提出了一种先进的无监督领域适应方法 Generative Pseudo Labeling（GPL），使用 query 生成模型与基于 cross-encoder 的匹配模型为目标域构造伪标签。实验结果证明了此方法的有效性，且相比于之前的领域迁移方法更加鲁棒。

本文还探究了六种近期提出的预训练方法在稠密检索领域迁移任务上的表现，只有三种方法有促进作用。其中效果最好的 TSDAE [2] 可以与 GPL 结合，进一步提升模型性能。

Introduction

稠密检索模型需要大量的训练数据才可表现优异，研究表明其对领域迁移十分敏感。比如，在 MS MARCO 上训练的检索模型在 COVID-19 相关文档检索任务中表现很差。MS MARCO 数据集是在 COVID-19 之前创建的，因此它不包括任何与 COVID-19 相关的主题，模型无法学习如何在向量空间中很好地表示该主题。

针对此问题，本文提出 Generative Pseudo Labeling（GPL），具体流程如下图所示。

1. 首先使用预训练 T5 模型根据目标域 passage 生成对应的 query；

2. 之后使用稠密检索模型为每个 query 挖掘负样本；

3. 最后，使用 cross-encoder 为每个 query-passage 对打分，为目标域稠密检索模型的训练构造伪标签。

流程中使用到的 T5、稠密检索模型、cross-encoder 均为现有的在 MS MARCO 数据集上预训练过的模型。

Related Work

3.1 Pre-Training based Domain Adaptation

对于 transformer 模型，最常用的领域适应方法是基于域自适应的预训练，该方法的基本做法是在使用标签数据对模型进行微调之前，先使用目标域数据对模型进行预训练。然而对于检索任务，目标域标签数据往往难以获得，因此需进行零样本学习。除 MLM（Masked Language Modeling）外，还有一些针对稠密检索的其他预训练策略，具体如下。

ICT（Latent Retrieval for Weakly Supervised Open Domain Question Answering [3] , ACL 2019）通过从 passage 中随机选择一个句子作为 query，剩余的部分作为配对的 passage，生成 query-passage 对。
CD（Condenser: a Pre-training Architecture for Dense Retrieval [4] , EMNLP 2021）提出针对稠密检索的预训练模型 Condenser，改变现有 MLM 的结构以迫使模型学习有意义的 CLS 表示。
SimCSE（SimCSE: Simple Contrastive Learning of Sentence Embeddings [5] , EMNLP 2021）将同一句句子输入到具有不同 dropout 的网络中两次，最小化两次结果的距离。
CT（Semantic Re-tuning with Contrastive Tension, ICLR 2021）与 SimCSE 类似，不同的是其将句子输入到不同的两个模型中。
TSDAE（TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning [6] , EMNLP 2021 finding）使用具有瓶颈的去噪自编码器架构：从输入文本中删除单词，并通过编码器生成固定大小的 embedding，解码器须重构原始文本。

ICT、CD 仅被研究用于域内的性能，即在预训练之后，有大量标签数据用于后续有监督的微调。SimCSE, CT, TSDAE 仅用于无监督的句子向量学习。直接使用利用这些策略学习到的句子表示用来检索，其性能远远不足。

目前这些预训练方法是否可以用于稠密检索的无监督领域适应还不明确 。本文首先使用这些这些策略在目标域文本上进行预训练，之后在 MS MARCO 数据集上微调模型来实现稠密检索的领域迁移，并探究其效果。

3.2 Query Generation

一些工作通过 query 生成来提升检索模型的性能。

Doc2query（Document Expansion by Query Prediction [7] ）使用预测的查询进行文档扩展，之后使用 BM25 来检索文档。
QGen（Zero-shot Neural Passage Retrieval via Domain-targeted Synthetic Question Generation [8] , EACL 2021）使用通用领域训练的query生成器在目标域生成 query 构造合成数据，之后稠密检索模型根据合成数据从零开始训练。

尽管 QGen 很有效，训练检索模型时损失使用的是批内负样本的交叉熵损失，这仅提供了粗粒度的相关性，因此限制了模型的性能。本文使用考虑困难样本的 cross-encoder 提供的伪标签来提升模型性能。

3.3 Other Methods

MoDIR（Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations [9]）使用域对抗训练（DAT）用于稠密检索的无监督领域适应。
UDALM（UDALM: Unsupervised Domain Adaptation through Language Modeling [10] , NAACL 2021）采用多阶段训练，首先在目标域使用 MLM 预训练，之后采用目标域 MLM 与源域有监督目标进行多任务学习。

3.4 Pseudo Labeling and Cross-Encoders

不同于双塔式结构，cross-encoder 将 query 和 passage 进行拼接后通过 cross-attention 预测相关性分数，通常用于精排阶段。相关研究表明 cross-encoder 相比于稠密检索模型具有更好的性能和领域适应能力。但由于其较高的计算开销，不太适用于检索，但检索模型可从 cross-encoder 中蒸馏知识以提升性能。

Method

Introduction 部分已介绍本文所提出 GPL 的基本结构，此处不再赘述。此处主要介绍本文方法相比于 QGen 的区别。

QGen 进行 query 生成后，使用 MultipleNegativesRanking（MNRL）损失训练检索模型：

其中表示 query，表示 passage，表示 batch size，控制 softmax 归一化的尖锐程度。

QGen 存在一些弊端：MNRL 损失仅考虑了 query 与 passage 之间的粗粒度相关性；query 生成器可能生成不能被输入 passage 回答的 query；存在其他passage可能与 query 相关的情况，即假负例的问题。

本文使用 cross-encoder 提供的伪标签和 MarginMSE 损失来训练模型，使稠密检索模型模仿 query 与正负 passage 之间的得分差异。

其中，为稠密检索模型的得分差。

MarginMSE 损失解决了两个关键问题：当 query 生成器生成的 query 质量较低时，其 cross-encoder 分数也会比较低，此时稠密检索模型不会使 query 和 passage 在向量空间中过于接近。假负例会在cross-encoder中得到高分，相应的向量也不会被拉得很远。

Experiments

选择六个特定领域来检测模型的领域适应能力，包括 FiQA（financial domain）, SciFact（scientific papers）, BioASQ（biomedical Q&A）, TREC-COVID（scientific papers on COVID-19）, CQADupStack（12 StackExchange sub-forums）, Robust04（news articles）。使用 nDCG@10 作为评估指标。实验结果如下表所示，与多个 baseline 相比可见 GPL 的有效性。

Analysis

此部分分析了训练步数、语料库数量、query 生成、开始 checkpoint 对 GPL 模型的影响。

Conclusion

本文提出 GPL，一种稠密检索的无监督领域适应方法，通过 query 生成模型为目标域 passage 生成 qurey 并使用 cross-encoder 构造伪标签，克服了以往方法的两个重要缺点：query 质量无法保证及假负例的问题。GPL 在所有目标数据集上的表现超越了之前的方法。

本文还探究了多个预训练策略在领域适应上的表现，ICT 和 MLM 可以带来少许提升，TSDAE 可以带来较为明显的提升，其他方法反而对性能有损。

模型的领域适应本质上是对源域训练的模型进行修正或补充，因此设计与目标任务更接近的预训练策略或为目标任务构造对模型修正有效的训练数据均可以提高模型在目标域的表现。

参考文献

[1] https://arxiv.org/abs/2104.08663

[2] https://aclanthology.org/2021.findings-emnlp.59/

[3] https://aclanthology.org/P19-1612.pdf

[4] https://aclanthology.org/2021.emnlp-main.75.pdf

[5] https://aclanthology.org/2021.emnlp-main.552.pdf

[6] https://aclanthology.org/2021.findings-emnlp.59.pdf

[7] https://arxiv.org/abs/1904.08375

[8] https://aclanthology.org/2021.eacl-main.92.pdf

[9] https://arxiv.org/abs/2110.07581

[10] https://aclanthology.org/2021.naacl-main.203.pdf

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

GPL

关注 0

General Public License的缩写--GNU通用公共授权。大多数软件许可证剥夺共享和修改软件的自由。GNU通用公共许可证试图保证你共享和修改自由软件的自由。保证自由软件对所有用户是自由的。

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

专知会员服务

16+阅读 · 2022年2月9日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知会员服务

26+阅读 · 2021年11月16日

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

专知会员服务

11+阅读 · 2021年10月24日

【CIKM2021】超链接预训练信息检索

专知会员服务

16+阅读 · 2021年8月24日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

31+阅读 · 2021年3月19日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

26+阅读 · 2020年12月31日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

29+阅读 · 2020年9月29日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

27+阅读 · 2020年2月12日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

91+阅读 · 2019年12月22日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

30+阅读 · 2019年11月17日

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

91.3%！首个将Transformer解码器应用于多标签图像分类的方法Query2Label

极市平台

5+阅读 · 2022年2月19日

任务型对话系统预训练最新研究进展

PaperWeekly

2+阅读 · 2022年1月14日

复旦大学张奇组：对话摘要数据不足？对话数据、文档摘要数据，我全都要！

PaperWeekly

0+阅读 · 2021年10月11日

普林斯顿陈丹琦组：以实体为问题中心，让稠密检索模型DPR光环暗淡

PaperWeekly

0+阅读 · 2021年9月29日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

EMNLP2019 | 南大NLP，基于细粒度知识融合的序列标注领域适应

AI科技评论

20+阅读 · 2019年9月24日

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

25+阅读 · 2019年9月11日

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于用户语义生成的Web资源自组织与共享方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

0+阅读 · 2012年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于数据集“粒结构”和几何结构的子空间学习算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

不可压缩湍流的能量级串及拟序结构的生成机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

Exploring Dense Retrieval for Dialogue Response Selection

Arxiv

0+阅读 · 2022年4月20日

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval

Arxiv

0+阅读 · 2022年4月15日

Improving Passage Retrieval with Zero-Shot Question Generation

Arxiv

0+阅读 · 2022年4月15日

Cross-Modal Coherence for Text-to-Image Retrieval

Arxiv

0+阅读 · 2022年4月15日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources

Arxiv

13+阅读 · 2019年11月14日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

Multi-pseudo Regularized Label for Generated Samples in Person Re-Identification

Arxiv

12+阅读 · 2018年1月29日

VIP会员