Multi-modal analytical processing has the potential to transform applications in e-commerce, healthcare, entertainment, and beyond. However, real-world adoption remains elusive due to the limited ability of traditional relational query operators to capture query semantics. The emergence of foundation models, particularly the large language models (LLMs), opens up new opportunities to develop flexible, semantic-aware data analytics systems that transcend the relational paradigm. We present Nirvana, a multi-modal data analytics framework that incorporates programmable semantic operators while leveraging both logical and physical query optimization strategies, tailored for LLM-driven semantic query processing. Nirvana addresses two key challenges. First, it features an agentic logical optimizer that uses natural language-specified transformation rules and random-walk-based search to explore vast spaces of semantically equivalent query plans -- far beyond the capabilities of conventional optimizers. Second, it introduces a cost-aware physical optimizer that selects the most effective LLM backend for each operator using a novel improvement-score metric. To further enhance efficiency, Nirvana incorporates computation reuse and evaluation pushdown techniques guided by model capability hypotheses. Experimental evaluations on three real-world benchmarks demonstrate that Nirvana is able to reduce end-to-end runtime by 10%--85% and reduces system processing costs by 76% on average, outperforming state-of-the-art systems at both efficiency and scalability.


翻译:多模态分析处理具有变革电子商务、医疗保健、娱乐等应用的潜力。然而,由于传统关系型查询算子在捕捉查询语义方面的能力有限,其在实际应用中的采纳仍面临挑战。基础模型的出现,特别是大语言模型(LLMs),为开发超越关系范式的灵活、语义感知的数据分析系统开辟了新机遇。本文提出Nirvana,一种多模态数据分析框架,它整合了可编程的语义算子,并利用逻辑与物理查询优化策略,专为LLM驱动的语义查询处理而设计。Nirvana解决了两个关键挑战:首先,它采用一种基于代理的逻辑优化器,利用自然语言指定的转换规则和随机游走搜索来探索语义等价查询计划的广阔空间——远超传统优化器的能力范围。其次,它引入了一种成本感知的物理优化器,通过新颖的改进分数指标为每个算子选择最有效的LLM后端。为进一步提升效率,Nirvana结合了基于模型能力假设指导的计算重用和评估下推技术。在三个真实世界基准测试上的实验评估表明,Nirvana能够将端到端运行时间减少10%至85%,系统处理成本平均降低76%,在效率和可扩展性方面均优于现有先进系统。

0
下载
关闭预览

相关内容

LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员