영어 |中文版| 종이
대형 언어 모델, Text2SQL, Text2dsl, Text2api, Text2vis 등의 선별 된 튜토리얼 및 리소스.
오타, 버그를 찾거나 제안이 있거나 LLM+Text2SQL과 관련된 리소스를 공유하려는 모든 사람의 기여를 따뜻하게 환영합니다. 기여 방법에 대한 자세한 지침은 Contributing.md 파일을 참조하십시오.
| wikisql | 거미 정확한 경기 (em) | 거미 정확한 실행 (예) | 새 보상 기반 유효 효율성 점수 (R-VE) | 새 실행 정확도 (예) | |
|---|---|---|---|---|---|
| ? 1 | 93.0 (2021/05-sead+실행 유도 디코딩) | 81.5 (2023/11-Miniseek) | 91.2 (2023/11-Miniseek) | 69.36 (2024/08-Opensearch-SQL, V2 + GPT-4O) | 73.00 (2024/09-Chase-SQL + Gemini) |
| ? 2 | 92.7 (2021/03-SDSQL+실행 유도 디코딩) | 74.0 (2022/09-Graphix-3B + Picard) | 86.6 (2023/08-Dail-SQL + GPT-4 + 자기 일관성) | 68.79 (2024/08-EXSL + 화강암 -34B 코드) | 72.39 (2024/09-ASKDATA + GPT-4O) |
| ? 3 | 92.5 (2020/11-II-SQL+실행 유도 디코딩) | 73.9 (2022/09-CATSQL + Grappa) | 86.2 (2023/08-Dail-SQL + GPT-4) | 68.44 (2024/09-Chase-SQL + Gemini) | 72.28 (2024/08-Opensearch-SQL, V2 + GPT-4O) |
| 4 | 92.2 (2020/03-Hydranet+실행 유도 디코딩) | 73.1 (2022/09-ship + picard) | 85.6 (2023/10-DPG-SQL + GPT-4 + 자체 교정) | 67.41 (2024/07-Distillery + GPT-4O) | 71.83 (2024/07-Distillery + GPT-4O) |
| 5 | 91.9 (2020/12- 브리지+실행 유도 디코딩) | 72.9 (2022/05-g³r + lgesql + electra) | 85.3 (2023/04-din-sql + gpt-4) | 66.92 (2024/09-ASKDATA + GPT-4O) | 70.37 (2024/08-EXSL + 화강암 -34B 코드) |
| 6 | 91.8 (2019/08-X-SQL+실행 유도 디코딩) | 72.4 (2022/08-Resdsql+T5-1.1-LM100K-XL) | 83.9 (2023/07-Hindsight 사고 체인 GPT-4) | 66.39 (2024/08-Insights AI) | 70.26 (2024/08-Insights AI) |
| 7 | 91.4 (2021/03-SDSQL) | 72.4 (2022/05-t5-sr) | 82.3 (2023/06-C3 + chatgpt + Zero-Shot) | 66.25 (2024/05-EXSL + 화강암 -20B 코드) | 70.21 (2024/07-purple + red + gpt-4o) |
| 8 | 91.1 (2020/12- 브리지) | 72.2 (2022/12-N-BEST List Rerankers + Picard) | 80.8 (2023/07-Hindsight 사고 체인 GPT-4 및 지시 사항) | 65.70 (2024/07-recap + gemini) | 69.03 (2024/07-recap + gemini) |
| 9 | 91.0 (2021/04-text2sqlgen + eg) | 72.1 (2021/09-S²SQL + Electra) | 79.9 (2023/02-RESDSQL-3B + NATSQ) | 65.62 (2024/07-purple + red + gpt-4o) | 68.87 (2024/07-bytebrain) |
| 10 | 90.5 (2020/11-seqgensql+EG) | 72.0 (2023/02-ResdSQL-3B + NATSQL) | 78.5 (2022/11-sead + PQL) | 63.68 (2024/08-Arcwise + GPT-4O 찾고 | 67.86 (2024/05-EXSL + 화강암 -20B 코드) |
(2024-Arxiv) 자연어에서 SQL까지 : LLM 기반 Text-to-SQL 시스템 검토 [논문]
(2024-Arxiv) 대형 언어 모델 강화 텍스트-SQL 생성 : 설문 조사 [논문]
(2024-Arxiv) 큰 언어 모델을 가진 NL2SQL에 대한 조사 : 우리는 어디에 있고 어디로 가고 있습니까? [종이] [코드]
(2024-Arxiv) 텍스트-스크린 작업을 위해 대형 언어 모델을 사용하는 것에 대한 설문 조사 [논문]
(2023-VLDB, CCF-A) 텍스트 간 SQL에 대한 딥 러닝 접근에 대한 설문 조사 [용지]
(2022-TKDE, CCF-A) 텍스트-스크린 구문 분석에 대한 설문 조사 : 개념, 방법 및 향후 방향 [논문]
(2022-Coloing, CCF-B) 최근 텍스트 간 SQL의 발전 : 우리가 가진 것과 기대하는 것에 대한 조사 [논문]
(2022-Arxiv) 딥 러닝 중심의 자연 언어 텍스트에 대한 텍스트 : 설문 조사 [논문]
(2024-Arxiv, 없음) Chase-SQL : Multi-Path 추론 및 선호도 최적화 된 후보자 선택 텍스트-SQL [용지]
(2024-Arxiv, 없음) E-SQL : Text-to-SQL의 질문 강화를 통한 직접 스키마 [논문] [코드]
(2024-Arxiv, 없음) 증류소 : 스키마 연결의 죽음? 합리적 인 언어 모델의 시대에 텍스트 간 SQL [종이]
(2024-Arxiv, 없음) DB-GPT-Hub : 열린 벤치마킹을 향해 큰 언어 모델에 의해 권한이 부여 된 텍스트 간 SQL [논문] [코드]
(2024-Arxiv, 없음) SuperSQL : 자연 언어의 새벽 SQL : 우리는 완전히 준비 되었습니까? [종이] [코드]
(2024-Arxiv, 없음) 체스 : 효율적인 SQL 합성을위한 상황에 맞는 활용 [논문] [코드]
(2023-Arxiv, 없음) MAC-SQL : 텍스트-스크린을위한 다중 에이전트 공동 작업 프레임 워크 [논문] [코드]
(2023-Arxiv, 없음) DBCᴏᴘɪʟᴏᴛ : 자연어 쿼리 스케일링 대규모 데이터베이스 [용지] [코드]
(2023-Arxiv, 없음) 대형 언어 모델에 의해 권한을 부여받은 텍스트 간 SQL : 벤치 마크 평가 [논문] [코드]
(2023-AAAI 2023, CCF-A) RESDSQL : 텍스트 투 SQL에 대한 스키마 연결 및 골격 파싱 [논문] [코드]
(2023-Arxiv, 없음) LLM은 이미 데이터베이스 인터페이스 역할을 할 수 있습니까? 대규모 데이터베이스를위한 큰 벤치는 텍스트 간 SQL을 접지했다 [종이] [코드]
(2023-Arxiv, 없음) DIN-SQL : 자기 수정을 가진 텍스트 간 SQL에 대한 텍스트 내 텍스트 학습을 분해했다 [논문] [코드]
(2023-Arxiv, 없음) Chatgpt의 Zero-Shot Text-to-SQL 기능에 대한 포괄적 인 평가 [논문] [코드]
(2023-ICLR, CCF-A) 상징적 언어의 언어 모델 구속력 [논문] [코드]
(2023-SIGMOD, CCF-A) 구조 및 내용 프롬프트 학습을 사용한 소수의 샷 텍스트-SQL 번역 [논문] [코드]
(2023-ICASSP, CCF-B) T5-SR : 시맨틱 구문 분석을위한 통합 된 SEQ-to-seq 디코딩 전략 [용지]
(2022-ACL, CCF-A) S 2 SQL : Text-to-SQL Parsers를위한 질문-스키마 상호 작용 그래프 인코더에 구문을 주입합니다 [용지]
(2022-naaCl, CCF-B) SEAD : Schema-Anourare Denoising을 사용한 엔드 투 엔드 텍스트 투 SQL 생성 [논문]
(2022-emnlp, CCF-B) Star : 컨텍스트 의존적 텍스트-SQL 구문 분석을위한 SQL 유도 사전 훈련 [논문] [코드]
(2022-emnlp, CCF-B) RASAT : 텍스트-SQL에 대한 사전 제작 된 seq2Seq 모델에 관계 구조를 통합 [논문] [코드]
(2022-emnlp, CCF-B) CQR-SQL : 대화 질문 개혁 강화 상황에 따른 텍스트-SQL 파서 [논문]
(2022-ACL, CCF-A) HIE-SQL : 컨텍스트 의존적 텍스트-SQL 시맨틱 파싱을위한 히스토리 정보 향상된 네트워크 [논문]
(2022-Arxiv, 없음) 텍스트-SQL 구문 분석에 대한 고품질 데이터 합성의 중요성 [논문]
(2021-ACL, CCF-A) 다중 회전 텍스트 투 SQL에 대한 디퍼링 된 대화 모델링 및 시맨틱 파싱 [용지]
(2021-Arxiv, 없음) 역사에 더 많은주의를 기울여 : 대화식 텍스트-SQL을위한 컨텍스트 모델링 전략 [논문] [코드]
(2021-ICLR, CCF-A) 점수 : 대화 의미 론적 구문 분석에서 맥락 표현에 대한 사전 훈련 [논문]
(2021-DASFAA, CCF-B) 재사용 전략을 가진 대화식 NL2SQL 접근법 [논문]
(2021-naaCl, CCF-B) 텍스트-SQL에 대한 구조적 사전 여파 [용지]
(2021-emnlp, CCF-B) Picard : 언어 모델에서 제한된 자동 반복 디코딩에 대한 점진적으로 구문 분석 [논문] [코드]
(2021-ICLR, CCF-A) Grappa : 테이블 시맨틱 구문 분석을위한 문법-방지 사전 훈련 [논문] [코드]
(2021-ACL, CCF-A) LGESQL : LINE 그래프 로컬 및 비 국소 관계가 혼합 된 텍스트 간 SQL 모델 [논문] [코드]
(2020-emnlp, CCF-B) 크로스 도메인 텍스트-SQL 시맨틱 구문 분석에 대한 텍스트 및 표 형 데이터 브리징 [논문] [코드]
(2020-ACL, CCF-A) TABERT : 텍스트 및 표 데이터에 대한 공동 이해를위한 사전 조정 [논문] [코드]
(2020-ACL, CCF-A) RAT-SQL : 관계 인식 스키마 인코딩 및 텍스트-SQL 파서의 연결 [용지] [코드]
(2020-emnlp, CCF-B) SQL 쿼리 생성에 대한 추출 및 링크 언급 [용지]
(2020-emnlp, CCF-B) IGSQL : 컨텍스트 의존적 텍스트-SQL 생성을위한 데이터베이스 스키마 상호 작용 그래프 기반 신경 모델 [논문] [코드]
(2020-Arxiv, None) 텍스트 간 SQL을위한 하이브리드 순위 네트워크 [논문] [코드]
(2019-Arxiv, 없음) X-SQL : 컨텍스트를 사용하여 스키마 표현을 강화합니다 [논문]
(2019-emnlp, CCF-B) Text-to-SQL 구문 분석을위한 데이터베이스 구조에 대한 글로벌 추론 [논문] [코드]
(2019-emnlp, CCF-B) 크로스 도메인 컨텍스트 종속 질문에 대한 편집 기반 SQL 쿼리 생성 [논문] [코드]
(2019-ACL, CCF-A) 텍스트-SQL 구문 분석을위한 그래프 신경망이있는 스키마 구조를 나타내는 [논문] [코드]
(2019-ACL, CCF-A) 중간 표현이있는 크로스 도메인 데이터베이스에서 복잡한 텍스트 간 SQL을 향한 [논문] [코드]
(2018-emnlp, CCF-B) SyntaxSQLNET : 복잡하고 크로스 도메인 텍스트-SQL 작업을위한 구문 트리 네트워크 [논문] [코드]
(2018-NAACL, CCF-B) TypesQL : 지식 기반 유형 인식 신경 텍스트-SQL 생성 [논문] [코드]
(2017-Arxiv, 없음) SQLNET : 강화 학습없이 자연어에서 구조화 된 쿼리 생성 [논문] [코드]
llama [종이] [코드] [모델]
chatglm [종이] [코드] [모델]
알파카 [종이] [코드] [모델]
Vicuna [종이] [코드] [모델]
Wizardlm [종이] [코드] [모델]
팔콘 [종이] [코드] [모델]
chatglm2 [종이] [코드] [모델]
Baichuan-7b [코드] [모델]
Baichuan-13b [코드] [모델]
Internlm [종이] [코드] [모델]
llama 2 [종이] [코드] [모델]
코드 llama [종이] [코드] [모델]
Qwen [종이] [코드] [모델]
Baichuan 2 [종이] [코드] [모델]
PHI-1.5 [종이] [모델]
Mistral-7b [종이] [코드] [모델]
DeepSeek [종이] [코드] [모델]
minicpm [종이] [코드] [모델]
mixtral-8x22b [종이] [코드] [모델]
PHI-3 [종이] [모델]
llama 3 [종이] [코드] [모델]
Qwen-1.5-110b [종이] [코드] [모델]
QWEN2 [논문] [코드] [모델]
llama 3.1 [종이] [코드] [모델]
Qwen2.5 [종이] [코드] [모델]
llama 3.2 [종이] [코드] [모델]
p 튜닝 [종이] [코드]
로라 [종이] [코드]
p-tuning v2 [종이] [코드]
RLHF [종이] [코드]
RRHF [종이] [코드]
Qlora [종이] [코드]
rltf [종이] [코드]
RRTF [종이]
rlaif [종이]
wikisql [종이] [코드] [데이터 세트]
스파이더 1.0 [종이] [코드] [데이터 세트]
SPARC [종이] [코드] [데이터 세트]
cspider [종이] [코드] [데이터 세트]
COSQL [종이] [코드] [데이터 세트]
TableQA [종이] [데이터 세트]
dusql [종이] [데이터 세트]
KaggledBqa [종이] [코드] [데이터 세트]
체이스 [종이] [코드] [데이터 세트]
Bird-SQL [종이] [코드] [데이터 세트]
Bird-SQL Mini-Dev [용지] [코드] [데이터 세트]
Spider 2.0 [종이] [코드] [데이터 세트]
실행 정확도 (예) [종이]
정확히 일치 (em) [종이]
Mindsql
premsql
DB-GPT-HUB
sqlcoder
modal_finetune_sql
llama- 효율적인 튜닝
연구 또는 개발에 유용한 Text2SQL 찾으면 다음 논문을 인용하십시오.
@misc { zhou2024dbgpthub ,
title = { DB-GPT-Hub: Towards Open Benchmarking Text-to-SQL Empowered by Large Language Models } ,
author = { Fan Zhou and Siqiao Xue and Danrui Qi and Wenhui Shi and Wang Zhao and Ganglin Wei and Hongyang Zhang and Caigai Jiang and Gangwei Jiang and Zhixuan Chu and Faqiang Chen } ,
year = { 2024 } ,
eprint = { 2406.11434 } ,
archivePrefix = { arXiv } ,
primaryClass = { id='cs.DB' full_name='Databases' is_active=True alt_name=None in_archive='cs' is_general=False description='Covers database management, datamining, and data processing. Roughly includes material in ACM Subject Classes E.2, E.5, H.0, H.2, and J.1.' }
}Eosphoros
굉장한 aigc-tutorials