Retrieval Augmented Generation (RAG) uses vector databases to expand the expertise of an LLM model without having to retrain it. The idea can be applied over data lakes, leading to the notion of embedding data lakes, i.e., a pool of vector databases ready to be used by RAGs. The key component in these systems is the indexes enabling Approximated Nearest Neighbor Search (ANNS). However, in data lakes, one cannot realistically expect to build indexes for every dataset. Thus, we propose an adaptive, partition-based index, CrackIVF, that performs much better than up-front index building. CrackIVF starts answering as a small index, and only expands to improve performance as it sees enough queries. It does so by progressively adapting the index to the query workload. That way, queries can be answered right away without having to build a full index first. After seeing enough queries, CrackIVF will produce an index comparable to those built with conventional techniques. CrackIVF can often answer more than 1 million queries before other approaches have even built the index, achieving 10-1000x faster initialization times. This makes it ideal for cold or infrequently used data and as a way to bootstrap access to unseen datasets.


翻译:检索增强生成(RAG)利用向量数据库扩展大型语言模型(LLM)的专业能力,而无需重新训练模型。该理念可应用于数据湖,从而形成嵌入数据湖的概念,即一组可供RAG随时使用的向量数据库池。这些系统的核心组件是支持近似最近邻搜索(ANNS)的索引。然而,在数据湖场景中,为每个数据集构建索引并不现实。因此,我们提出了一种自适应的、基于分区的索引方法CrackIVF,其性能显著优于预先构建索引的传统方式。CrackIVF初始以小型索引响应查询,仅在接收到足够查询量后才扩展索引以提升性能。它通过逐步使索引适应查询工作负载来实现这一过程,从而无需预先构建完整索引即可立即响应查询。在积累足够查询后,CrackIVF生成的索引性能可与传统技术构建的索引相媲美。在其他方法尚未完成索引构建时,CrackIVF通常已能处理超过100万次查询,实现10至1000倍的初始化速度提升。这使得它特别适用于冷数据或低频使用数据,并可作为访问未知数据集的引导机制。

0
下载
关闭预览

相关内容

【ICML2024】社区不变图对比学习
专知会员服务
24+阅读 · 2024年5月4日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
专知会员服务
41+阅读 · 2021年6月19日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月18日
VIP会员
相关VIP内容
【ICML2024】社区不变图对比学习
专知会员服务
24+阅读 · 2024年5月4日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
专知会员服务
41+阅读 · 2021年6月19日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员