NL2SQL手册
从此存储库中,您可以查看NL2SQL中的最新进步。本手册对应于我们的调查论文:具有大语言模型的NL2SQL的调查:我们在哪里,我们要去哪里?我们还提供教程幻灯片来总结本调查的要点。根据语言模型发展的趋势,我们创建了NL2SQL方法的河流图来追踪NL2SQL场的演变。
如果您是新手,请不要担心 - 我们为您准备了一份实用的指南,涵盖了这里广泛的基础材料。我们总结了NL2SQL相关的应用程序。

@misc { liu2024surveynl2sqllargelanguage ,
title = { A Survey of NL2SQL with Large Language Models: Where are we, and where are we going? } ,
author = { Xinyu Liu and Shuyu Shen and Boyan Li and Peixian Ma and Runzhi Jiang and Yuyu Luo and Yuxin Zhang and Ju Fan and Guoliang Li and Nan Tang } ,
year = { 2024 } ,
eprint = { 2408.05109 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.DB } ,
url = { https://arxiv.org/abs/2408.05109 } ,
}? NL2SQL简介
将用户的自然语言查询(NL)转换为SQL查询可以显着降低访问关系数据库并支持各种商业应用程序的障碍。随着语言模型(LMS)的出现,NL2SQL的性能得到了极大的提高。在这种情况下,至关重要的是要评估我们的当前立场,确定从业人员应为特定方案采用的NL2SQL解决方案,并确定研究人员应探索下一步的研究主题。

? NL2SQL生命周期

模型:NL2SQL翻译技术不仅可以解决NL模棱两可和规格不足,而且还可以通过数据库模式和实例正确地绘制NL;
数据:从培训数据的收集,由于培训数据稀缺而导致的数据综合到NL2SQL基准;
评估:使用不同的指标和粒度从多个角度评估NL2SQL方法;
错误分析:分析NL2SQL误差以找到根本原因并指导NL2SQL模型以发展。
?我们在哪里?
我们将NL2SQL的挑战分为五个级别,每个级别都解决了特定的障碍。前三个级别涵盖了目前正在解决的挑战,反映了NL2SQL的逐步发展。第四级代表了我们旨在在LLMS阶段应对的挑战,而第五级概述了我们未来五年对NL2SQL系统的愿景。
我们从语言模型的角度描述了NL2SQL解决方案的演变,将其分为四个阶段。对于NL2SQL的每个阶段,我们分析目标用户的变化以及应对挑战的程度。

?基于模块的NL2SQL方法
我们总结了使用语言模型的NL2SQL解决方案的关键模块。
- 预处理可以增强NL2SQL解析过程中模型的输入。您可以从本章中获取更多详细信息:预处理
- NL2SQL翻译方法构成NL2SQL解决方案的核心,负责将自然语言查询转换为SQL查询。您可以从本章中获取更多详细信息:NL2SQL翻译方法
- 后处理是完善生成的SQL查询,确保它们更准确地满足用户期望的关键步骤。您可以从本章中获取更多详细信息:后处理

NL2SQL调查和教程
- 对NL2SQL的调查,具有大语言模型:我们在哪里,我们在哪里要去
- 下一代数据库接口:基于LLM的文本到SQL的调查。
- 大型语言模型增强了文本到SQL的生成:调查。
- 从自然语言到SQL:基于LLM的文本到SQL系统的评论。
- 一项有关使用大型语言模型进行文本到SQL任务的调查。
- 表格数据查询和可视化的自然语言界面:调查。
- 具有深度学习数据库的自然语言界面。
- 关于文本到SQL的深度学习方法的调查。
- 文本到SQL的最新进展:对我们拥有和期望的调查。
- 深入研究文本到SQL系统的深度学习方法。
- 自然语言界面与数据的界面的最新状态和开放挑战。
- SQL的自然语言:我们今天在哪里?
? NL2SQL纸张列表
- 自然语言降临到SQL:我们已经准备好了吗?
- 大型语言模型授权的文本到SQL:基准评估。
- 零击NL2SQL生成的预训练的语言模型和大型语言模型。
- 生成数据库架构的简洁描述,以促进大型语言模型的成本效益提示。
- ScienceBenchmark:用于评估SQL系统自然语言的复杂现实基准。
- 代码:构建用于文本到SQL的开源语言模型。
- FINSQL:基于模型Anostic LLMS的文本到SQL框架,用于财务分析。
- 紫色:使大型语言模型成为更好的SQL作者。
- MetasQL:生成的自然语言框架到SQL翻译。
- Archer:具有算术,常识性和假设推理的人类标记的文本到SQL数据集。
- 从弱和强LLM中综合文本到SQL数据。
- 了解噪声在文本到SQL中的影响:对鸟基础基准测试的检查。
- 我需要帮助!评估LLM寻求用户支持的能力:关于文本到SQL生成的案例研究。
- PTD-SQL:在文本到SQL中使用LLMS进行分区和靶向钻孔。
- 通过基于AST的排名和架构修剪来改善检索式的文本到SQL。
- 以数据为中心的文本到SQL具有大型语言模型。
- 蜘蛛2.0:评估现实世界企业文本到SQL工作流的语言模型。
- 结构指导SQL生成的大型语言模型。
- RSL-SQL:在文本到SQL生成中链接的强大架构。
- TrustSQL:通过基于惩罚的评分进行基准测试文本到SQL可靠性。
- SQL-GEN:通过合成数据和模型合并来弥合文本到SQL的方言差距。
- 通过基于数据的自我解释将天然语言接地到SQL翻译。
- Chase-SQL:文本到SQL中的多路推理和偏好优化的候选选择。
- 通过LLM路由优化SQL生成。
- xiyan-sql:用于文本到sql的多生集合框架。
- E-SQL:直接架构通过文本到SQL中的问题丰富链接。
- DB-GPT:授权与私人大语言模型的数据库交互。
- 模式链接的死亡?在良好的语言模型时代,文本到SQL。
- DBCOPILOT:将自然语言查询缩放到大量数据库。
- 国际象棋:上下文利用有效的SQL合成。
- PET-SQL:迅速增强的两轮文本到SQL的两轮精致,并具有跨稳态。
- COE-SQL:具有编辑链的多转移文本到SQL的文本学习。
- Ambrosia:将模棱两可问题解析到数据库查询中的基准。
- 使用结构和内容提示学习的文本到SQL翻译很少。
- CATSQL:迈向现实世界的自然语言,以实现SQL应用。
- DIN-SQL:通过自我纠正对文本到SQL进行分解。
- 数据歧义回溯:文档如何改善GPT的文本到SQL。
- ACT-SQL:具有自动生成的思想链的文本到SQL的文本到SQL学习。
- 跨域文本到SQL的选择性演示。
- resdsql:链接模式链接和骨骼解析,以解析文本到SQL。
- Graphix-T5:将预训练的变压器与图形的图层混合,用于文本到SQL解析。
- 改善基于语言模型的文本到SQL语义解析的概括:两种简单的基于语义边界的技术。
- G 3 R:用于复杂和跨域文本到SQL生成的图形引导生成端子框架。
- 合成高质量数据以进行文本到SQL解析的重要性。
- 知道我不知道的:为文本到SQL处理模棱两可和未知的问题。
- C3:用chatgpt的零击文本到sql
- MAC-SQL:用于文本到SQL的多代理协作框架。
- SQLFormer:用于文本到SQL翻译的Deep自动回程查询图生成。
NL2SQL基准
我们创建了一个基准开发的时间表,并标记了相关的里程碑。您可以从本章中获取更多详细信息:基准测试

我们要去哪里?
- Sovle打开NL2SQL问题
- 开发具有成本效益的NL2SQL方法
- 使NL2SQL解决方案值得信赖
- NL2SQL具有模棱两可和未指定的NL查询
- 自适应培训数据综合
我们的调查目录
您可以从我们的小节中获取更多信息。我们介绍了有关相关概念的代表论文:
?新手实用指南
如何获取数据:
- 我们收集NL2SQL基准功能并为您下载链接。您可以从本章中获取更多详细信息:基准测试
- 基准分析代码可在
src/dataset_analysis目录中获得。基准分析报告可以在report/目录中找到。
如何构建基于LLM的NL2SQL模型:
LITGPT存储库链接
该存储库提供了20多个高性能大语言模型(LLM)的访问权限,并提供了全面的指南,以预处理,微调和大规模部署。它旨在通过划痕实现和没有复杂的抽象对初学者友好。
Llama-Factory存储库链接统一的100+ LLM的有效微调。将各种模型与可扩展的培训资源,高级算法,实用技巧以及全面的实验监控工具相结合,此设置可以通过优化的API和UIS进行有效,更快的推断。
Bird-SQL基准存储库的微调和文化学习链接
Bird-SQL基准提供了用于微调和文化学习的教程。
?如何评估您的模型:
我们为您收集NL2SQL评估指标。您可以从本章中获取更多详细信息:评估
NLSQL360存储库链接
NL2SQL360是用于对NL2SQL溶液进行细粒评估的测试床。我们的测试台集成了现有的NL2SQL基准,NL2SQL模型的存储库以及各种评估指标,该指标旨在提供直观且用户友好的平台,以启用标准和自定义的性能评估。
test-suite-sql-eval存储库链接
此存储库包含11个文本到SQL任务的测试套件评估度量。它现在是蜘蛛,SPARC和Cosql的官方指标,现在也可以用于学术,ATIS,建议,地理,IMDB,餐馆,学者,学者和Yelp(凯瑟琳和乔纳森的惊人作品建设)。
鸟式官方存储库链接
现在它是伯德 - 塞尔的官方工具。这是提出VES并提供官方测试套件的第一个工具。
?路线图和决策流
您可以从路线图和决策流中获得一些灵感。

NL2SQL相关的应用程序:
- CHAT2DB:AI驱动的数据库工具和SQL客户端,最热门的GUI客户端,支持MySQL,Oracle,Postgresql,DB2,SQL Server,DB2,SQLITE,SQLITE,H2,CLICKHOUSE等。
- DB-GPT:具有AWEL(代理工作流表达语言)和代理的AI本机数据应用程序开发框架。
- postgres.new:浏览器邮政Sandbox借助AI协助。