Passage retrieval aims to retrieve relevant passages from large collections of the open-domain corpus. Contextual Masked Auto-Encoding has been proven effective in representation bottleneck pre-training of a monolithic dual-encoder for passage retrieval. Siamese or fully separated dual-encoders are often adopted as basic retrieval architecture in the pre-training and fine-tuning stages for encoding queries and passages into their latent embedding spaces. However, simply sharing or separating the parameters of the dual-encoder results in an imbalanced discrimination of the embedding spaces. In this work, we propose to pre-train Contextual Masked Auto-Encoder with Mixture-of-Textual-Experts (CoT-MoTE). Specifically, we incorporate textual-specific experts for individually encoding the distinct properties of queries and passages. Meanwhile, a shared self-attention layer is still kept for unified attention modeling. Results on large-scale passage retrieval benchmarks show steady improvement in retrieval performances. The quantitive analysis also shows a more balanced discrimination of the latent embedding spaces.


翻译:段落检索旨在从大型开放领域语料库中检索相关段落。上下文掩码自动编码已被证明在段落检索的单体双编码器表示瓶颈预训练中非常有效。暹罗式或完全分离的双编码器通常被采用作为基本的检索架构在预训练和微调阶段用于将查询和段落编码为它们的潜在嵌入空间。然而,简单地共享或分离双编码器的参数会导致嵌入空间的不平衡判别。在这项工作中,我们提出了采用混合文本专家的上下文掩码自动编码器预训练(CoT-MoTE)。具体而言,我们为单独对查询和段落的不同属性进行编码的文本特定专家进行了整合。同时,仍保留共享的自我关注层用于统一的注意力建模。大规模段落检索基准测试结果显示,在检索性能方面有持续的改进。量化分析还显示了潜在嵌入空间的更平衡的判别性。

0
下载
关闭预览

相关内容

【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
29+阅读 · 2020年3月16日
VIP会员
相关VIP内容
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员