别再双塔了！谷歌提出DSI索引，检索效果吊打双塔，零样本超BM25！ - 专知

会员服务 ·

0

别再双塔了！谷歌提出DSI索引，检索效果吊打双塔，零样本超BM25！

2022 年 2 月 21 日 夕小瑶的卖萌屋

卖萌屋今日学术精选

这篇论文展示了信息检索可以用一个Transformer来完成，其中，关于语料库的所有信息都被编码在Transformer模型的参数中。

论文标题：
Transformer Memory as a Differentiable Search Index
链接：
https://arxiv.org/abs/2202.06991

作者提出了可微搜索索引（Differentiable Search Index，DSI)的概念，这是一种新的搜索范式，它可以学习出一个Query-to-DocID的文本检索模型，将用户Query直接映射到相关的DocID节点上；换句话说，DSI模型直接使用其模型参数来回答用户查询，极大地简化了整个检索过程。

上图展示了经典的双塔模型（Dual Encoder）+最大内积检索（MIPS）的经典检索范式，与本文提出的可微搜索索引（DSI）的范式的区别。后者统一了模型的训练与检索。

实验结果

首先作者在不同规模的NQ数据集上，检验了DSI模型的supervised learning能力。

从上表可以看到，DSI模型经过finetune之后，强势吊打了BM25基线和同样finetune之后的T5模型。

此外，作者还在NQ数据集上检验了DSI模型的zero-shot能力。

众所周知，BM25是zero shot方面非常高的一个基线，从上表可以看出，DSI的zero shot能力也显著优于BM25。

实验表明，给定适当的设计选择，DSI不仅显著优于双塔模型为代表的强基线模型，此外，DSI展示了很强的泛化能力，在zero-shot实验中显著优于BM25基线。

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

登录查看更多

2

相关内容

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

12+阅读 · 2022年3月12日

【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)

【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)

专知会员服务

9+阅读 · 2022年3月4日

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

专知会员服务

47+阅读 · 2021年11月10日

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

专知会员服务

11+阅读 · 2021年10月24日

【CIKM2021】联合优化查询编码器和乘积量化提高检索性能

专知会员服务

8+阅读 · 2021年9月16日

【SIGIR2021】使用难样本优化向量检索模型

专知会员服务

26+阅读 · 2021年4月22日

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

专知会员服务

29+阅读 · 2020年7月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

40+阅读 · 2020年2月26日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

27+阅读 · 2020年2月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

44+阅读 · 2020年2月12日

视觉Prompt来了，效果超越微调！

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

新智元

1+阅读 · 2022年3月20日

我在谷歌实习时发现了一个模型 bug，于是有了这篇 ACL

我在谷歌实习时发现了一个模型 bug，于是有了这篇 ACL

夕小瑶的卖萌屋

2+阅读 · 2022年3月16日

基于自回归填空的通用语言模型预训练 | 论文荐读

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

单个Transformer完成信息检索，谷歌用可微搜索索引打败双编码器模型

单个Transformer完成信息检索，谷歌用可微搜索索引打败双编码器模型

机器之心

1+阅读 · 2022年3月4日

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了 | ICLR&NeurIPS

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了 | ICLR&NeurIPS

量子位

1+阅读 · 2021年12月17日

双塔召回模型的前世今生（上篇）

双塔召回模型的前世今生（上篇）

图与推荐

2+阅读 · 2021年12月8日

48小时单GPU训练DistilBERT！这个检索模型轻松达到SOTA

48小时单GPU训练DistilBERT！这个检索模型轻松达到SOTA

PaperWeekly

0+阅读 · 2021年12月7日

如何提升大规模Transformer的训练效果？Primer给出答案

如何提升大规模Transformer的训练效果？Primer给出答案

夕小瑶的卖萌屋

0+阅读 · 2021年10月29日

【SIGIR2021】使用难样本优化向量检索模型

【SIGIR2021】使用难样本优化向量检索模型

专知

4+阅读 · 2021年4月22日

关键词广告中的最优广告策略研究

国家自然科学基金

2+阅读 · 2014年12月31日

构建多样本可变形中国人数字解剖图谱的可行性研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于冗余编码的云存储技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

云计算中TB/PB级海量数据近似查询处理技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向社区的协同检索方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

搜索引擎广告的关键词筛选与竞价策略：考虑多重约束的理论模型与实证研究

国家自然科学基金

0+阅读 · 2011年12月31日

带马尔可夫参数更新跳跃风险模型的研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向海量图像数据的检索技术的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于社会性标注及本体的深层网语义搜索方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

Arxiv

1+阅读 · 2022年4月19日

A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval

Arxiv

0+阅读 · 2022年4月17日

Investigating the Impact of Forgetting in Software Development

Arxiv

0+阅读 · 2022年4月15日

Value Retrieval with Arbitrary Queries for Form-like Documents

Arxiv

0+阅读 · 2022年4月15日

LaMemo: Language Modeling with Look-Ahead Memory

Arxiv

0+阅读 · 2022年4月15日

Minimizing Control for Credit Assignment with Strong Feedback

Arxiv

0+阅读 · 2022年4月14日

How Different are Pre-trained Transformers for Text Ranking?

Arxiv

0+阅读 · 2022年4月5日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Deep learning for time series classification: a review

Arxiv

12+阅读 · 2019年3月14日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

14+阅读 · 2018年10月11日

VIP会员

相关主题

Transformer模型

相关VIP内容

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

12+阅读 · 2022年3月12日

【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)

【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)

专知会员服务

9+阅读 · 2022年3月4日

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

ICLR 2022 评审出炉！来看看得分最高8份的31篇论文是什么！

专知会员服务

47+阅读 · 2021年11月10日

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

专知会员服务

11+阅读 · 2021年10月24日

【CIKM2021】联合优化查询编码器和乘积量化提高检索性能

专知会员服务

8+阅读 · 2021年9月16日

【SIGIR2021】使用难样本优化向量检索模型

专知会员服务

26+阅读 · 2021年4月22日

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

专知会员服务

29+阅读 · 2020年7月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

40+阅读 · 2020年2月26日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

27+阅读 · 2020年2月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

44+阅读 · 2020年2月12日

热门VIP内容

相关资讯

视觉Prompt来了，效果超越微调！

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

新智元

1+阅读 · 2022年3月20日

我在谷歌实习时发现了一个模型 bug，于是有了这篇 ACL

我在谷歌实习时发现了一个模型 bug，于是有了这篇 ACL

夕小瑶的卖萌屋

2+阅读 · 2022年3月16日

基于自回归填空的通用语言模型预训练 | 论文荐读

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

单个Transformer完成信息检索，谷歌用可微搜索索引打败双编码器模型

单个Transformer完成信息检索，谷歌用可微搜索索引打败双编码器模型

机器之心

1+阅读 · 2022年3月4日

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了 | ICLR&NeurIPS

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了 | ICLR&NeurIPS

量子位

1+阅读 · 2021年12月17日

双塔召回模型的前世今生（上篇）

双塔召回模型的前世今生（上篇）

图与推荐

2+阅读 · 2021年12月8日

48小时单GPU训练DistilBERT！这个检索模型轻松达到SOTA

48小时单GPU训练DistilBERT！这个检索模型轻松达到SOTA

PaperWeekly

0+阅读 · 2021年12月7日

如何提升大规模Transformer的训练效果？Primer给出答案

如何提升大规模Transformer的训练效果？Primer给出答案

夕小瑶的卖萌屋

0+阅读 · 2021年10月29日

【SIGIR2021】使用难样本优化向量检索模型

【SIGIR2021】使用难样本优化向量检索模型

专知

4+阅读 · 2021年4月22日

相关基金

关键词广告中的最优广告策略研究

国家自然科学基金

2+阅读 · 2014年12月31日

构建多样本可变形中国人数字解剖图谱的可行性研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于冗余编码的云存储技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

云计算中TB/PB级海量数据近似查询处理技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向社区的协同检索方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

搜索引擎广告的关键词筛选与竞价策略：考虑多重约束的理论模型与实证研究

国家自然科学基金

0+阅读 · 2011年12月31日

带马尔可夫参数更新跳跃风险模型的研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向海量图像数据的检索技术的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于社会性标注及本体的深层网语义搜索方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

Arxiv

1+阅读 · 2022年4月19日

A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval

Arxiv

0+阅读 · 2022年4月17日

Investigating the Impact of Forgetting in Software Development

Arxiv

0+阅读 · 2022年4月15日

Value Retrieval with Arbitrary Queries for Form-like Documents

Arxiv

0+阅读 · 2022年4月15日

LaMemo: Language Modeling with Look-Ahead Memory

Arxiv

0+阅读 · 2022年4月15日

Minimizing Control for Credit Assignment with Strong Feedback

Arxiv

0+阅读 · 2022年4月14日

How Different are Pre-trained Transformers for Text Ranking?

Arxiv

0+阅读 · 2022年4月5日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Deep learning for time series classification: a review

Arxiv

12+阅读 · 2019年3月14日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

14+阅读 · 2018年10月11日

大家都在搜

李清照词作

大型语言模型

伯克利博士论文

基于几何特征的激光雷达地面点云分割

微信扫码咨询专知VIP会员