将自然语言(NL)问题转换为SQL查询,称为文本到SQL(Text-to-SQL),已成为促进关系型数据库访问的关键技术,尤其对于没有SQL知识的用户。大型语言模型(LLMs)在自然语言处理(NLP)领域的最新进展,显著推动了文本到SQL系统的发展,开辟了提升此类系统的新途径。本研究系统地回顾了基于LLM的文本到SQL,重点讨论四个关键方面:(1)对基于LLM的文本到SQL研究趋势的分析;(2)从多角度对现有的基于LLM的文本到SQL技术进行深入分析;(3)总结现有的文本到SQL数据集和评估指标;(4)讨论这一领域潜在的障碍和未来探索的方向。本综述旨在为研究人员提供对基于LLM的文本到SQL的深入理解,激发该领域的新创新和进展。 CCS概念:• 计算方法 → 自然语言处理;• 信息系统 → 结构化查询语言(SQL)。 附加关键词:文本到SQL、大型语言模型(LLMs)。

引言 SQL查询的利用显著提高了从多个数据库中提取数据的效率。这些数据已被有效应用于多个重要领域,如商业智能 [80] 和医疗分析 [78]。虽然技术专业人员擅长处理SQL查询,但数据库的自然语言接口(NLIDB)使得非技术用户也能够无缝地从结构化数据库中提取信息 [20]。这种便捷性显著推动了文本到SQL系统的发展,这些系统能够自动将自然语言(NL)查询转换为有效的SQL查询。为了说明这一点,我们考虑一个简单的数据库,如图1所示,包含一个名为“cities”的表格,表中有“country”、“city_name”和“population”三列。通过使用文本到SQL系统,用户输入类似“Identify all cities in the UK with populations over five million”的查询,将其转换为以下SQL查询:“SELECT city_name FROM cities WHERE country = ‘UK’ AND population > 5000000”。生成的SQL查询随后在给定数据库中执行,返回的结果(如“[London]”)将反馈给用户。整个过程简化了不熟悉SQL的用户对信息的访问。

近年来,自然语言处理(NLP)领域出现了重大突破,随着大型语言模型(LLMs)的出现 [1, 38],这些模型具有前所未有的处理和生成类人语境的能力,受到了广泛关注 [12, 145]。随着LLM的不断发展,新的能力开始显现,例如零-shot学习 [132]、few-shot学习 [108] 和指令跟随 [136]。鉴于这些能力,基于LLM的文本到SQL方法逐渐崭露头角,尤其是基于上下文学习(ICL-based) [89] 和微调(FT-based)技术 [63] 的方法。因此,研究人员有必要系统地理解基于LLM的文本到SQL的关键方法、挑战和未来方向。鉴于这一重要性,我们对2022年4月到2024年10月期间发表的92篇相关文献进行了系统概述,并选择了2017年到2024年10月间关于文本到SQL的开源数据集和评估指标。通过考察基于LLM的文本到SQL的发展趋势,并从多角度审视一系列研究成果,我们旨在概述潜在的挑战和未来研究的方向。 总之,本综述的贡献包括: • 研究趋势分析:我们对所调查的文献进行了分析,识别出研究趋势,包括按出版日期、出版平台和主要贡献类型进行的分类。 • 文献概览:我们将基于LLM的文本到SQL研究分为三大类:方法论、数据集和评估指标。每一类别都按顺序介绍,为读者提供系统的概述。 • LLM方法的新分类法:我们提出了一种新的SQL生成方法分类法,将其分为四种主要范式:预处理、上下文学习、微调和后处理。每个领域根据特定的模型设计进一步细分,提供了对当前创新的系统回顾。 • 数据集和评估指标概述:我们对现有的文本到SQL任务的数据集和评估指标进行了概述。 • 当前挑战与未来方向的讨论:通过对所调查文献的分析,我们识别出当前研究中的几个重要障碍。此外,我们还讨论了未来研究的关键方向,为开发更健壮、高效和可靠的系统提供指导。 本文的其余部分安排如下:第二部分介绍了文本到SQL模型的发展,强调了使用LLM进行SQL生成的原因。第三部分概述了我们的系统文献综述方法。第四部分考察了基于LLM的文本到SQL研究趋势。第五部分探讨了现有的方法论,并将其分类为预处理、上下文学习、微调和后处理范式。第六部分回顾了现有的文本到SQL数据集和评估指标。第七部分讨论了文本到SQL中的当前挑战和潜在的未来研究方向。第八部分分析了我们研究的有效性威胁,第九部分总结了本综述。我们希望本综述能够为当前进展提供清晰的全景图,并激发未来在基于LLM的SQL生成领域的探索。

成为VIP会员查看完整内容
10

相关内容

停止过度思考:大型语言模型高效推理研究综述
专知会员服务
29+阅读 · 3月21日
多智能体协作机制:大语言模型综述
专知会员服务
60+阅读 · 3月4日
大规模视觉-语言模型的基准、评估、应用与挑战
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
84+阅读 · 2024年5月3日
大型语言模型(LLMs)革新金融:应用与洞察概览
专知会员服务
39+阅读 · 2024年3月22日
大型语言模型图表示学习:技术的全面综述
专知会员服务
51+阅读 · 2024年2月14日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
126+阅读 · 2024年2月6日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员