NL2SQL手冊
從此存儲庫中,您可以查看NL2SQL中的最新進步。本手冊對應於我們的調查論文:具有大語言模型的NL2SQL的調查:我們在哪裡,我們要去哪裡?我們還提供教程幻燈片來總結本調查的要點。根據語言模型發展的趨勢,我們創建了NL2SQL方法的河流圖來追踪NL2SQL場的演變。
如果您是新手,請不要擔心 - 我們為您準備了一份實用的指南,涵蓋了這裡廣泛的基礎材料。我們總結了NL2SQL相關的應用程序。

@misc { liu2024surveynl2sqllargelanguage ,
title = { A Survey of NL2SQL with Large Language Models: Where are we, and where are we going? } ,
author = { Xinyu Liu and Shuyu Shen and Boyan Li and Peixian Ma and Runzhi Jiang and Yuyu Luo and Yuxin Zhang and Ju Fan and Guoliang Li and Nan Tang } ,
year = { 2024 } ,
eprint = { 2408.05109 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.DB } ,
url = { https://arxiv.org/abs/2408.05109 } ,
}? NL2SQL簡介
將用戶的自然語言查詢(NL)轉換為SQL查詢可以顯著降低訪問關係數據庫並支持各種商業應用程序的障礙。隨著語言模型(LMS)的出現,NL2SQL的性能得到了極大的提高。在這種情況下,至關重要的是要評估我們的當前立場,確定從業人員應為特定方案採用的NL2SQL解決方案,並確定研究人員應探索下一步的研究主題。

? NL2SQL生命週期

模型:NL2SQL翻譯技術不僅可以解決NL模棱兩可和規格不足,而且還可以通過數據庫模式和實例正確地繪製NL;
數據:從培訓數據的收集,由於培訓數據稀缺而導致的數據綜合到NL2SQL基準;
評估:使用不同的指標和粒度從多個角度評估NL2SQL方法;
錯誤分析:分析NL2SQL誤差以找到根本原因並指導NL2SQL模型以發展。
?我們在哪裡?
我們將NL2SQL的挑戰分為五個級別,每個級別都解決了特定的障礙。前三個級別涵蓋了目前正在解決的挑戰,反映了NL2SQL的逐步發展。第四級代表了我們旨在在LLMS階段應對的挑戰,而第五級概述了我們未來五年對NL2SQL系統的願景。
我們從語言模型的角度描述了NL2SQL解決方案的演變,將其分為四個階段。對於NL2SQL的每個階段,我們分析目標用戶的變化以及應對挑戰的程度。

?基於模塊的NL2SQL方法
我們總結了使用語言模型的NL2SQL解決方案的關鍵模塊。
- 預處理可以增強NL2SQL解析過程中模型的輸入。您可以從本章中獲取更多詳細信息:預處理
- NL2SQL翻譯方法構成NL2SQL解決方案的核心,負責將自然語言查詢轉換為SQL查詢。您可以從本章中獲取更多詳細信息:NL2SQL翻譯方法
- 後處理是完善生成的SQL查詢,確保它們更準確地滿足用戶期望的關鍵步驟。您可以從本章中獲取更多詳細信息:後處理

NL2SQL調查和教程
- 對NL2SQL的調查,具有大語言模型:我們在哪裡,我們在哪裡要去
- 下一代數據庫接口:基於LLM的文本到SQL的調查。
- 大型語言模型增強了文本到SQL的生成:調查。
- 從自然語言到SQL:基於LLM的文本到SQL系統的評論。
- 一項有關使用大型語言模型進行文本到SQL任務的調查。
- 表格數據查詢和可視化的自然語言界面:調查。
- 具有深度學習數據庫的自然語言界面。
- 關於文本到SQL的深度學習方法的調查。
- 文本到SQL的最新進展:對我們擁有和期望的調查。
- 深入研究文本到SQL系統的深度學習方法。
- 自然語言界面與數據的界面的最新狀態和開放挑戰。
- SQL的自然語言:我們今天在哪裡?
? NL2SQL紙張列表
- 自然語言降臨到SQL:我們已經準備好了嗎?
- 大型語言模型授權的文本到SQL:基準評估。
- 零擊NL2SQL生成的預訓練的語言模型和大型語言模型。
- 生成數據庫架構的簡潔描述,以促進大型語言模型的成本效益提示。
- ScienceBenchmark:用於評估SQL系統自然語言的複雜現實基準。
- 代碼:構建用於文本到SQL的開源語言模型。
- FINSQL:基於模型Anostic LLMS的文本到SQL框架,用於財務分析。
- 紫色:使大型語言模型成為更好的SQL作者。
- MetasQL:生成的自然語言框架到SQL翻譯。
- Archer:具有算術,常識性和假設推理的人類標記的文本到SQL數據集。
- 從弱和強LLM中綜合文本到SQL數據。
- 了解噪聲在文本到SQL中的影響:對鳥基礎基準測試的檢查。
- 我需要幫助!評估LLM尋求用戶支持的能力:關於文本到SQL生成的案例研究。
- PTD-SQL:在文本到SQL中使用LLMS進行分區和靶向鑽孔。
- 通過基於AST的排名和架構修剪來改善檢索式的文本到SQL。
- 以數據為中心的文本到SQL具有大型語言模型。
- 蜘蛛2.0:評估現實世界企業文本到SQL工作流的語言模型。
- 結構指導SQL生成的大型語言模型。
- RSL-SQL:在文本到SQL生成中鏈接的強大架構。
- TrustSQL:通過基於懲罰的評分進行基準測試文本到SQL可靠性。
- SQL-GEN:通過合成數據和模型合併來彌合文本到SQL的方言差距。
- 通過基於數據的自我解釋將天然語言接地到SQL翻譯。
- Chase-SQL:文本到SQL中的多路推理和偏好優化的候選選擇。
- 通過LLM路由優化SQL生成。
- xiyan-sql:用於文本到sql的多生集合框架。
- E-SQL:直接架構通過文本到SQL中的問題豐富鏈接。
- DB-GPT:授權與私人大語言模型的數據庫交互。
- 模式鏈接的死亡?在良好的語言模型時代,文本到SQL。
- DBCOPILOT:將自然語言查詢縮放到大量數據庫。
- 國際象棋:上下文利用有效的SQL合成。
- PET-SQL:迅速增強的兩輪文本到SQL的兩輪精緻,並具有跨穩態。
- COE-SQL:具有編輯鏈的多轉移文本到SQL的文本學習。
- Ambrosia:將模棱兩可問題解析到數據庫查詢中的基準。
- 使用結構和內容提示學習的文本到SQL翻譯很少。
- CATSQL:邁向現實世界的自然語言,以實現SQL應用。
- DIN-SQL:通過自我糾正對文本到SQL進行分解。
- 數據歧義回溯:文檔如何改善GPT的文本到SQL。
- ACT-SQL:具有自動生成的思想鏈的文本到SQL的文本到SQL學習。
- 跨域文本到SQL的選擇性演示。
- resdsql:鏈接模式鏈接和骨骼解析,以解析文本到SQL。
- Graphix-T5:將預訓練的變壓器與圖形的圖層混合,用於文本到SQL解析。
- 改善基於語言模型的文本到SQL語義解析的概括:兩種簡單的基於語義邊界的技術。
- G 3 R:用於復雜和跨域文本到SQL生成的圖形引導生成端子框架。
- 合成高質量數據以進行文本到SQL解析的重要性。
- 知道我不知道的:為文本到SQL處理模棱兩可和未知的問題。
- C3:用chatgpt的零擊文本到sql
- MAC-SQL:用於文本到SQL的多代理協作框架。
- SQLFormer:用於文本到SQL翻譯的Deep自動回程查詢圖生成。
NL2SQL基準
我們創建了一個基准開發的時間表,並標記了相關的里程碑。您可以從本章中獲取更多詳細信息:基準測試

我們要去哪裡?
- Sovle打開NL2SQL問題
- 開發具有成本效益的NL2SQL方法
- 使NL2SQL解決方案值得信賴
- NL2SQL具有模棱兩可和未指定的NL查詢
- 自適應培訓數據綜合
我們的調查目錄
您可以從我們的小節中獲取更多信息。我們介紹了有關相關概念的代表論文:
?新手實用指南
如何獲取數據:
- 我們收集NL2SQL基準功能並為您下載鏈接。您可以從本章中獲取更多詳細信息:基準測試
- 基準分析代碼可在
src/dataset_analysis目錄中獲得。基準分析報告可以在report/目錄中找到。
如何構建基於LLM的NL2SQL模型:
LITGPT存儲庫鏈接
該存儲庫提供了20多個高性能大語言模型(LLM)的訪問權限,並提供了全面的指南,以預處理,微調和大規模部署。它旨在通過划痕實現和沒有復雜的抽像對初學者友好。
Llama-Factory存儲庫鏈接統一的100+ LLM的有效微調。將各種模型與可擴展的培訓資源,高級算法,實用技巧以及全面的實驗監控工具相結合,此設置可以通過優化的API和UIS進行有效,更快的推斷。
Bird-SQL基準存儲庫的微調和文化學習鏈接
Bird-SQL基準提供了用於微調和文化學習的教程。
?如何評估您的模型:
我們為您收集NL2SQL評估指標。您可以從本章中獲取更多詳細信息:評估
NLSQL360存儲庫鏈接
NL2SQL360是用於對NL2SQL溶液進行細粒評估的測試床。我們的測試台集成了現有的NL2SQL基準,NL2SQL模型的存儲庫以及各種評估指標,該指標旨在提供直觀且用戶友好的平台,以啟用標準和自定義的性能評估。
test-suite-sql-eval存儲庫鏈接
此存儲庫包含11個文本到SQL任務的測試套件評估度量。它現在是蜘蛛,SPARC和Cosql的官方指標,現在也可以用於學術,ATIS,建議,地理,IMDB,餐館,學者,學者和Yelp(凱瑟琳和喬納森的驚人作品建設)。
鳥式官方存儲庫鏈接
現在它是伯德 - 塞爾的官方工具。這是提出VES並提供官方測試套件的第一個工具。
? 路線圖和決策流
您可以從路線圖和決策流中獲得一些靈感。

NL2SQL相關的應用程序:
- CHAT2DB:AI驅動的數據庫工具和SQL客戶端,最熱門的GUI客戶端,支持MySQL,Oracle,PostgreSQL,DB2,SQL Server,DB2,SQLITE,SQLITE,H2,CLICKHOUSE等。
- DB-GPT:具有AWEL(代理工作流表達語言)和代理的AI本機數據應用程序開發框架。
- postgres.new:瀏覽器郵政Sandbox借助AI協助。