【WSDM2022】基于约束聚类学习离散表示的高效密集检索

2021 年 11 月 16 日 专知


论文题目:Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval

作 者:詹靖涛,毛佳昕,刘奕群,郭嘉丰,张敏,马少平

论文概述:虽然向量检索已经取得了不错的排序性能,但是已有的向量检索模型的存储开销和时间开销都很大。这主要是由于大多数工作都需要存储稠密向量并且进行近邻搜索(NNS)。因此,我们提出一个新颖的检索模型RepCONC。RepCONC通过有约束聚类(Constrained Clustering)来端到端地联合优化dual-encoders和Product Quantization来学习离散的表示。在检索时,RepCONC使用近似近邻搜索(ANNS)来进行高效地检索。有约束聚类是对量化过程的建模,它约束稠密向量被均匀地分配到不同的量化中心。我们理论上说明了该约束的重要性,使用最优传输理论推导出了近似的解,并用到了模型训练中。我们在MS MARCO段落检索和文档检索数据集上进行实验。实验结果表明,RepCONC在排序性能、存储效率、时间效率上都显著优于各种不同的检索模型。

https://www.zhuanzhi.ai/paper/659f0487020b0896c2f07694994a4aee

图:RepCONC训练流程图

图:Constrained Clustering示意图


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CEDR” 就可以获取【WSDM2022】基于约束聚类学习离散表示的高效密集检索》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
6+阅读 · 2021年8月7日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
24+阅读 · 2020年12月27日
专知会员服务
25+阅读 · 2020年12月17日
专知会员服务
34+阅读 · 2020年11月29日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
WSDM2022时间检验奖花落推荐系统
机器学习与推荐算法
1+阅读 · 2022年2月23日
【WWW2021】面向时空图预测的神经结构搜索
【SIGIR2021】使用难样本优化向量检索模型
专知
4+阅读 · 2021年4月22日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
99+阅读 · 2020年3月4日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
VIP会员
相关VIP内容
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
6+阅读 · 2021年8月7日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
24+阅读 · 2020年12月27日
专知会员服务
25+阅读 · 2020年12月17日
专知会员服务
34+阅读 · 2020年11月29日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Top
微信扫码咨询专知VIP会员