苏人解DE v 2: 信息检索简缩的词汇和扩展模式 (SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval) - 专知论文

会员服务 ·

0

INFORMS · 稀疏 · MoDELS · 信息检索 · state-of-the-art ·

2021 年 9 月 21 日

SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval

翻译：苏人解DE v 2: 信息检索简缩的词汇和扩展模式

Thibault Formal,Carlos Lassance,Benjamin Piwowarski,Stéphane Clinchant

from arxiv, 5 pages. arXiv admin note: substantial text overlap with arXiv:2107.05720

In neural Information Retrieval (IR), ongoing research is directed towards improving the first retriever in ranking pipelines. Learning dense embeddings to conduct retrieval using efficient approximate nearest neighbors methods has proven to work well. Meanwhile, there has been a growing interest in learning \emph{sparse} representations for documents and queries, that could inherit from the desirable properties of bag-of-words models such as the exact matching of terms and the efficiency of inverted indexes. Introduced recently, the SPLADE model provides highly sparse representations and competitive results with respect to state-of-the-art dense and sparse approaches. In this paper, we build on SPLADE and propose several significant improvements in terms of effectiveness and/or efficiency. More specifically, we modify the pooling mechanism, benchmark a model solely based on document expansion, and introduce models trained with distillation. We also report results on the BEIR benchmark. Overall, SPLADE is considerably improved with more than $9$\% gains on NDCG@10 on TREC DL 2019, leading to state-of-the-art results on the BEIR benchmark.

翻译：在神经信息检索(IR)中,正在进行的研究旨在改进排位管道的第一检索器。学习密集的嵌入器,以便使用高效近邻近邻方法进行检索,已证明是行之有效的。与此同时,人们越来越有兴趣学习文件和查询的缩略语,这些缩略语可以继承一袋词模型的可取特性,如确切的术语匹配和反向指数的效率。最近推出的苏人解模式在最新密集和稀少方法方面提供了极为稀少的表述和竞争性结果。在本文中,我们利用苏人解,提出了在有效性和/或效率方面进行重大改进的建议。更具体地说,我们修改集合机制,仅以文件扩展为基准,并采用经过精练培训的模式。我们还报告了BER基准的结果。总体而言,苏人解取得了显著改善,NDCG@10在TREC DL 2019上取得了超过9美元的收入,从而导致BIR基准取得最新结果。

0

相关内容

INFORMS

《计算机信息》杂志发表高质量的论文，扩大了运筹学和计算的范围，寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文，以及描述新的和有用的软件工具的论文。官网链接：https://pubsonline.informs.org/journal/ijoc

【KDD2021】检索交互机的表格数据预测

专知会员服务

15+阅读 · 2021年8月13日

【如何做研究】How to research ，22页ppt

【如何做研究】How to research ，22页ppt

专知会员服务

108+阅读 · 2021年4月17日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

47+阅读 · 2020年5月26日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

36+阅读 · 2020年2月18日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

25+阅读 · 2020年2月10日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

52+阅读 · 2020年1月30日

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

专知会员服务

45+阅读 · 2019年12月2日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

45+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

56+阅读 · 2019年10月17日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

30+阅读 · 2019年10月16日

已删除

将门创投

4+阅读 · 2020年1月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

23+阅读 · 2019年5月22日

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

17+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

41+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval

Arxiv

4+阅读 · 2021年5月8日

Optimizing Dense Retrieval Model Training with Hard Negatives

Arxiv

5+阅读 · 2021年4月16日

A Graph-based Relevance Matching Model for Ad-hoc Retrieval

Arxiv

11+阅读 · 2021年1月28日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

3+阅读 · 2019年8月19日

An Analysis of Object Embeddings for Image Retrieval

An Analysis of Object Embeddings for Image Retrieval

Arxiv

4+阅读 · 2019年5月28日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

Graph Convolutional Networks for Text Classification

Arxiv

12+阅读 · 2018年9月15日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Learning to Count Objects in Natural Images for Visual Question Answering

Arxiv

11+阅读 · 2018年2月15日

Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval

Arxiv

3+阅读 · 2018年2月13日

VIP会员

文章信息

相关主题

state-of-the-art

相关VIP内容

【KDD2021】检索交互机的表格数据预测

专知会员服务

15+阅读 · 2021年8月13日

【如何做研究】How to research ，22页ppt

【如何做研究】How to research ，22页ppt

专知会员服务

108+阅读 · 2021年4月17日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

47+阅读 · 2020年5月26日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

36+阅读 · 2020年2月18日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

25+阅读 · 2020年2月10日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

52+阅读 · 2020年1月30日

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

专知会员服务

45+阅读 · 2019年12月2日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

45+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

56+阅读 · 2019年10月17日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

30+阅读 · 2019年10月16日

热门VIP内容

相关资讯

已删除

将门创投

4+阅读 · 2020年1月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

23+阅读 · 2019年5月22日

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

17+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

41+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

【论文推荐】最新六篇推荐系统相关论文—注意力机制、多任务、协同跨网络、非结构化文本、TransRev、章节推荐

专知

12+阅读 · 2018年4月26日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

相关论文

Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval

Arxiv

4+阅读 · 2021年5月8日

Optimizing Dense Retrieval Model Training with Hard Negatives

Arxiv

5+阅读 · 2021年4月16日

A Graph-based Relevance Matching Model for Ad-hoc Retrieval

Arxiv

11+阅读 · 2021年1月28日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

3+阅读 · 2019年8月19日

An Analysis of Object Embeddings for Image Retrieval

An Analysis of Object Embeddings for Image Retrieval

Arxiv

4+阅读 · 2019年5月28日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

Graph Convolutional Networks for Text Classification

Arxiv

12+阅读 · 2018年9月15日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Learning to Count Objects in Natural Images for Visual Question Answering

Arxiv

11+阅读 · 2018年2月15日

Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval

Arxiv

3+阅读 · 2018年2月13日

微信扫码咨询专知VIP会员