NL2SQL 핸드북
이 저장소에서 NL2SQL에서 최신 발전을 볼 수 있습니다. 이 핸드북은 설문 조사 논문에 해당합니다. 큰 언어 모델이있는 NL2SQL에 대한 설문 조사 : 우리는 어디에 있고 어디로 가고 있습니까?. 또한이 설문 조사의 핵심 요점을 요약하기위한 자습서 슬라이드를 제공합니다. 언어 모델 개발의 추세를 바탕으로 NL2SQL 필드의 진화를 추적하기 위해 NL2SQL 방법의 강 다이어그램을 만들었습니다.
당신이 초보자라면, 걱정하지 마십시오. 우리는 여기에 다양한 기초 자료를 다루는 실용적인 가이드를 준비했습니다. NL2SQL 관련 응용 프로그램을 요약했습니다.

@misc { liu2024surveynl2sqllargelanguage ,
title = { A Survey of NL2SQL with Large Language Models: Where are we, and where are we going? } ,
author = { Xinyu Liu and Shuyu Shen and Boyan Li and Peixian Ma and Runzhi Jiang and Yuyu Luo and Yuxin Zhang and Ju Fan and Guoliang Li and Nan Tang } ,
year = { 2024 } ,
eprint = { 2408.05109 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.DB } ,
url = { https://arxiv.org/abs/2408.05109 } ,
}? NL2SQL 소개
사용자의 자연어 쿼리 (NL)를 SQL 쿼리로 변환하면 관계형 데이터베이스에 액세스하는 데있어 장벽을 크게 줄이고 다양한 상용 응용 프로그램을 지원할 수 있습니다. NL2SQL의 성능은 LMS (Language Model)의 출현으로 크게 향상되었습니다. 이러한 맥락에서, 우리의 현재 위치를 평가하고, 실무자가 특정 시나리오에 채택 해야하는 NL2SQL 솔루션을 결정하고, 연구자들이 다음에 탐색 해야하는 연구 주제를 식별하는 것이 중요합니다.

? NL2SQL 라이프 사이클

모델 : NL 모호성 및 지정 부족뿐만 아니라 데이터베이스 스키마 및 인스턴스와 NL을 올바르게 매핑하는 NL2SQL 번역 기술;
데이터 : 교육 데이터 수집, 교육 데이터 부족으로 인한 데이터 합성, NL2SQL 벤치 마크에 이르기까지;
평가 : 다른 메트릭과 세분성을 사용하여 다중 각도에서 NL2SQL 방법을 평가합니다.
오류 분석 : 근본 원인을 찾기 위해 NL2SQL 오류 분석 및 진화 할 NL2SQL 모델을 안내합니다.
? 우리는 어디에 있습니까?
우리는 NL2SQL의 문제를 5 레벨로 분류하며 각각의 특정 장애물을 다루고 있습니다. 처음 세 가지 수준은 NL2SQL의 점진적인 개발을 반영하여 현재 해결되고 있거나 현재 해결되고있는 문제를 다룹니다. 네 번째 수준은 LLMS 단계에서 해결하려는 도전을 나타내며, 5 단계는 향후 5 년 동안 NL2SQL 시스템에 대한 비전을 간략하게 설명합니다.
우리는 언어 모델의 관점에서 NL2SQL 솔루션의 진화를 4 단계로 분류합니다. NL2SQL의 각 단계마다 대상 사용자의 변화와 문제가 해결되는 정도를 분석합니다.

? 모듈 기반 NL2SQL 방법
언어 모델을 사용하는 NL2SQL 솔루션의 주요 모듈을 요약합니다.
- 사전 처리는 NL2SQL 구문 분석 프로세스에서 모델의 입력을 향상시키는 역할을합니다. 이 장에서 더 자세한 내용은 사전 프로세싱을 얻을 수 있습니다
- NL2SQL 번역 방법은 입력 자연어 쿼리를 SQL 쿼리로 변환하는 NL2SQL 솔루션의 핵심을 구성합니다. 이 장에서 자세한 내용을 얻을 수 있습니다 : NL2SQL 번역 방법
- 사후 처리는 생성 된 SQL 쿼리를 개선하는 데 중요한 단계이며 사용자 기대치를보다 정확하게 충족시킬 수 있습니다. 이 장에서 더 자세한 내용을 얻을 수 있습니다 : 사후 처리

NL2SQL 설문 조사 및 자습서
- 큰 언어 모델을 가진 NL2SQL에 대한 조사 : 우리는 어디에 있고 어디로 가고 있습니까?
- 차세대 데이터베이스 인터페이스 : LLM 기반 Text-to-SQL의 조사.
- 대형 언어 모델이 강화 된 텍스트-SQL 생성 : 설문 조사.
- 자연 언어에서 SQL까지 : LLM 기반 텍스트-SQL 시스템 검토.
- 텍스트 간 SQL 작업을 위해 큰 언어 모델을 사용하는 것에 대한 설문 조사.
- 테이블 데이터 쿼리 및 시각화를위한 자연어 인터페이스 : 설문 조사.
- 딥 러닝이있는 데이터베이스를위한 자연어 인터페이스.
- 텍스트 간 SQL에 대한 딥 러닝 접근법에 대한 설문 조사.
- 최근 텍스트 간 SQL의 발전 : 우리가 가진 것과 기대하는 것에 대한 조사.
- 텍스트-SQL 시스템을위한 딥 러닝 접근법에 대한 깊은 다이빙.
- 자연어 인터페이스의 최첨단 및 공개 도전은 데이터와의 인터페이스입니다.
- SQL에 대한 자연 언어 : 오늘날 우리는 어디에 있습니까?
? NL2SQL 용지 목록
- 자연 언어의 새벽 SQL : 우리는 완전히 준비 되었습니까?
- 대형 언어 모델에 의해 권한이 부여 된 텍스트 간 SQL : 벤치 마크 평가.
- 제로 샷 NL2SQL 생성에 대한 미리 훈련 된 언어 모델과 대형 언어 모델을 인터리빙합니다.
- 대형 언어 모델의 비용 효율적인 프롬프트를위한 데이터베이스 스키마의 간결한 설명 생성.
- ScienceBenchmark : 자연 언어를 SQL 시스템으로 평가하기위한 복잡한 실제 벤치 마크.
- 코드 : 텍스트 간 SQL을위한 오픈 소스 언어 모델 구축.
- FINSQL : 재무 분석을위한 모델 비전문화 LLMS 기반 텍스트 투 SQL 프레임 워크.
- 보라색 : 대형 언어 모델을 더 나은 SQL 작가로 만듭니다.
- MetASQL : 자연어에서 SQL 번역에 대한 생성-순위 프레임 워크.
- Archer : 산술, 상식 및 가상의 추론을 가진 인간으로 표지 된 텍스트 투 SQL 데이터 세트.
- 약하고 강한 LLM의 텍스트-SQL 데이터 합성.
- 텍스트 간 SQL에서 소음의 영향 이해 : 조류 벤치 벤치 마크 검사.
- 도움이 필요합니다! LLM이 사용자의 지원을 요청하는 능력 평가 : 텍스트 간 SQL 생성에 대한 사례 연구.
- PTD-SQL : Text-to-SQL에서 LLMS를 사용한 파티셔닝 및 타겟팅 드릴링.
- AST 기반 순위 및 스키마 가지 치기를 통해 검색 방지 텍스트 간 SQL을 향상시킵니다.
- 대형 언어 모델을 사용하여 데이터 중심 텍스트 간 SQL.
- Spider 2.0 : 실제 엔터프라이즈 텍스트-SQL 워크 플로에서 언어 모델 평가.
- 구조는 SQL 생성을위한 큰 언어 모델을 안내합니다.
- RSL-SQL : Text-to-SQL 생성에서 강력한 스키마 링크.
- TrustSQL : 페널티 기반 점수로 텍스트 간 신뢰도를 벤치마킹합니다.
- SQL-Gen : 합성 데이터 및 모델 병합을 통해 텍스트 간 방언 간격을 연결합니다.
- 자연 언어를 데이터 기반 자체 설명으로 SQL 번역에 근거합니다.
- Chase-SQL : 텍스트-SQL에서 다중 경로 추론 및 선호도 최적화 후보 선택.
- LLM 라우팅을 통해 SQL 생성을 최적화합니다.
- XIYAN-SQL : 텍스트 투 SQL을위한 다중 발전기 앙상블 프레임 워크.
- e-sql : 텍스트 간 SQL의 질문 강화를 통한 직접 스키마 링크.
- DB-GPT : 개인 대형 언어 모델과 데이터베이스 상호 작용에 권한을 부여합니다.
- 스키마 링크의 죽음? 합리적 인 언어 모델의 시대에 텍스트 간 SQL.
- DBCOPILOT : 자연어 쿼리 스케일링 대규모 데이터베이스.
- 체스 : 효율적인 SQL 합성을위한 상황에 맞는 활용.
- PET-SQL : 교차 일관성을 가진 텍스트 간 SQL의 프롬프트가 강화 된 2 라운드 정제.
- COE-SQL : 정의 체인과 함께 다중 회전 텍스트 간 SQL을위한 컨텍스트 학습.
- Ambrosia : 데이터베이스 쿼리에 모호한 질문을 구문 분석하는 벤치 마크.
- 구조 및 콘텐츠 프롬프트 학습을 사용하여 소수의 텍스트 투 SQL 번역.
- CATSQL : 실제 자연 언어로 SQL 응용 프로그램.
- DIN-SQL : 자기 수정으로 텍스트 간 SQL에 대한 텍스트 내 텍스트 학습을 분해했습니다.
- 데이터 모호성이 시작됩니다. 문서화가 GPT의 텍스트 간 SQL을 향상시키는 방법.
- ACT-SQL : 자동 생성 된 체인을 사용하여 텍스트 간 SQL에 대한 텍스트 내 학습.
- 크로스 도메인 텍스트 간 SQL에 대한 선택적 데모.
- RESDSQL : 스키마 디퍼 커플 링 스키마 링크 및 텍스트 투 SQL에 대한 골격 구문 분석.
- Graphix-T5 : 사전 훈련 된 변압기와 텍스트-SQL 파싱을위한 그래프 인식 레이어를 혼합합니다.
- 언어 모델 기반 텍스트-SQL 시맨틱 구문 분석의 일반화 향상 : 두 가지 간단한 시맨틱 경계 기반 기술.
- G 3 R : 복잡하고 크로스 도메인 텍스트-SQL 생성을위한 그래프 유도 생성 생성 및-랭크 프레임 워크.
- 텍스트-SQL 구문 분석을위한 고품질 데이터 합성의 중요성.
- 내가 모르는 것을 알고 있습니다 : 텍스트 투 SQL에 대한 모호하고 알려지지 않은 질문을 처리하십시오.
- C3 : chatgpt를 사용한 제로 샷 텍스트 투 SQL
- MAC-SQL : 텍스트 투 SQL을위한 다중 에이전트 공동 작업 프레임 워크.
- SQLFORMER : 텍스트-SQL 번역을위한 딥 자동 회귀 쿼리 그래프 생성.
NL2SQL 벤치 마크
우리는 벤치 마크 개발의 타임 라인을 만들고 관련 이정표를 표시합니다. 이 장에서 자세한 내용은 벤치 마크를 얻을 수 있습니다

우리는 어디로 가고 있습니까?
- Sovle Open NL2SQL 문제
- 비용 효율적인 NL2SQL 방법을 개발하십시오
- NL2SQL 솔루션을 신뢰할 수있게 만드십시오
- 모호하고 지정되지 않은 NL 쿼리가있는 NL2SQL
- 적응 훈련 데이터 합성
설문 조사를위한 카탈로그
하위 섹션에서 더 많은 정보를 얻을 수 있습니다. 우리는 관련 개념에 대한 대표적인 논문을 소개합니다.
- 사전 처리
- NL2SQL 번역 방법
- 후 처리
- 기준
- 평가
- 오류 분석
? 초보자를위한 실용 가이드
데이터를 얻는 방법 :
- 우리는 NL2SQL 벤치 마크 기능을 수집하고 귀하를 위해 링크를 다운로드합니다. 이 장에서 자세한 내용은 벤치 마크를 얻을 수 있습니다
- 벤치 마크 분석 코드는
src/dataset_analysis 디렉토리에서 사용할 수 있습니다. 벤치 마크 분석 보고서는 report/ 디렉토리에서 찾을 수 있습니다.
LLM 기반 NL2SQL 모델 구축 방법 :
리그 프트 리포지토리 링크
이 저장소는 사전 여지, 미세 조정 및 배포를위한 포괄적 인 가이드를 통해 20 개 이상의 고성능 대형 언어 모델 (LLM)에 액세스 할 수 있습니다. 이 건물은 스크래치에서 구현 및 복잡한 추상화가없는 초보자 친화적으로 설계되었습니다.
LLAMA-Factory Repository Link 100+ LLM의 통합 효율적인 미세 조정. 확장 가능한 교육 리소스, 고급 알고리즘, 실용적인 트릭 및 포괄적 인 실험 모니터링 도구와 다양한 모델을 통합하여 최적화 된 API 및 UI를 통해 효율적이고 빠른 추론을 가능하게합니다.
Bird-SQL 벤치 마크 리포지토리 링크에 대한 미세 조정 및 컨텍스트 학습
Bird-SQL 벤치 마크에서 미세 조정 및 텍스트 내 학습을위한 튜토리얼은 제공됩니다.
모델 평가 방법 :
우리는 당신을 위해 NL2SQL 평가 지표를 수집합니다. 이 장에서 자세한 내용은 평가할 수 있습니다
NLSQL360 리포지토리 링크
NL2SQL360은 NL2SQL 솔루션의 세밀한 평가를위한 테스트 베드입니다. 당사의 테스트 베드는 기존의 NL2SQL 벤치 마크, NL2SQL 모델 저장소 및 다양한 평가 메트릭을 통합하여 직관적이고 사용자 친화적 인 플랫폼을 제공하여 표준 및 맞춤형 성능 평가를 모두 가능하게합니다.
Test-Suite-SQL-Eval 저장소 링크
이 repo에는 11 개의 텍스트-SQL 작업에 대한 테스트 스위트 평가 메트릭이 포함되어 있습니다. 이제 Spider, Sparc 및 COSQL의 공식 메트릭이며 이제 Academic, Atis, Advising, Geography, IMDB, Restaurants, Scholar 및 Yelp (Catherine and Jonathan의 놀라운 작품을 기반으로하는 것)에도 사용할 수 있습니다.
Bird-SQL-Official Repository 링크
이제 Bird-SQL의 공식 도구입니다. VES를 제안하고 공식 테스트 스위트를 제공하는 첫 번째 도구입니다.
? 슬 로드맵 및 의사 결정 흐름
로드맵과 의사 결정 흐름에서 영감을 얻을 수 있습니다.

NL2SQL 관련 응용 프로그램 :
- Chat2DB : AI 구동 데이터베이스 도구 및 SQL 클라이언트, 가장 인기있는 GUI 클라이언트, MySQL, Oracle, PostgreSQL, DB2, SQL Server, DB2, SQLITE, H2, CLICKHOUSE 등을 지원합니다.
- DB-GPT : AWEL (Agentic Workflow Expression Language) 및 에이전트가있는 AI 기본 데이터 앱 개발 프레임 워크.
- Postgres.New : AI 지원이 포함 된 브라우저 인스트리 포스트 그 레스 샌드 박스.