NL2SQL_Handbook Скачать

NL2SQL_Handbook

Другой исходный код

1.0.0

Скачать

NL2SQL Справочник

Из этого репозитория вы можете просмотреть последние достижения в NL2SQL. Этот справочник соответствует нашей документе опроса: опрос NL2SQL с большими языковыми моделями: куда мы и куда мы идем?. Мы также предоставляем учебные слайды, чтобы суммировать ключевые моменты этого опроса. Основываясь на тенденциях в разработке языковых моделей, мы создали речную диаграмму методов NL2SQL, чтобы проследить эволюцию поля NL2SQL.

Если вы новичок, не волнуйтесь - мы подготовили для вас практическое руководство, охватывающее здесь широкий спектр основополагающих материалов. Мы суммировали приложения, связанные с NL2SQL.

 @misc { liu2024surveynl2sqllargelanguage ,
      title = { A Survey of NL2SQL with Large Language Models: Where are we, and where are we going? } , 
      author = { Xinyu Liu and Shuyu Shen and Boyan Li and Peixian Ma and Runzhi Jiang and Yuyu Luo and Yuxin Zhang and Ju Fan and Guoliang Li and Nan Tang } ,
      year = { 2024 } ,
      eprint = { 2408.05109 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.DB } ,
      url = { https://arxiv.org/abs/2408.05109 } , 
}

? NL2SQL ВВЕДЕНИЕ

Перевод запросов естественного языка пользователей (NL) в запросы SQL может значительно снизить барьеры для доступа к реляционным базам данных и поддержать различные коммерческие приложения. Производительность NL2SQL была значительно улучшена с появлением языковых моделей (LMS). В этом контексте крайне важно оценить нашу текущую позицию, определить решения NL2SQL, которые должны быть приняты для конкретных сценариев со стороны практиков, и определить темы исследования, которые исследователи должны исследовать дальше.

? NL2SQL LifeCycle

Модель: методы перевода NL2SQL, которые занимаются не только двусмысленностью NL и недостаточной спецификацией, но и надлежащим образом сопоставляют NL со схемой базы данных и экземплярами;
Данные: от сбора учебных данных, синтеза данных из -за дефицита обучения данных, до уровня NL2SQL;
Оценка: оценка методов NL2SQL с разных углов с использованием различных метрик и гранулярности;
Анализ ошибок: анализ ошибок NL2SQL, чтобы найти основную причину и направлять модели NL2SQL для развития.

? Где мы?

Мы классифицируем проблемы NL2SQL на пять уровней, каждый из которых рассматривает конкретные препятствия. Первые три уровня охватывают проблемы, которые были или в настоящее время решаются, что отражает прогрессивное развитие NL2SQL. Четвертый уровень представляет собой проблемы, которые мы стремимся решать на стадии LLMS, в то время как пятый уровень описывает наше видение системы NL2SQL в ближайшие пять лет.

Мы описываем эволюцию решений NL2SQL с точки зрения языковых моделей, классифицируя их на четыре этапа. Для каждого этапа NL2SQL мы анализируем изменения в целевых пользователях и степень решения проблем.

? Методы NL2SQL на основе модулей

Мы суммируем ключевые модули решений NL2SQL с использованием языковой модели.

Предварительная обработка служит улучшением входов модели в процессе анализа NL2SQL. Вы можете получить более подробную информацию из этой главы: предварительная обработка
Методы трансляции NL2SQL составляют ядро решения NL2SQL, отвечающего за преобразование запросов естественного языка в вводе в запросы SQL. Вы можете получить более подробную информацию из этой главы: методы перевода NL2SQL
Пост-обработка -это решающий шаг для уточнения сгенерированных запросов SQL, обеспечивающих более точные ожидания пользователей. Вы можете получить более подробную информацию из этой главы: пост-обработка

Обследование и учебник NL2SQL

Обзор NL2SQL с большими языковыми моделями: куда мы находимся и куда мы идем？
Интерфейсы баз данных следующего поколения: обследование текста в SQL на основе LLM.
Большая языковая модель Усовершенствованная генерация текста до SQL: опрос.
От естественного языка до SQL: обзор систем Text-Sql на основе LLM.
Опрос о использовании крупных языковых моделей для задач текста до SQL.
Интерфейсы естественного языка для запросов и визуализации табличных данных: опрос.
Интерфейсы естественного языка для баз данных с глубоким обучением.
Опрос о подходах к глубокому обучению для текста в SQL.
Недавние достижения в области текста в SQL: опрос того, что у нас есть и чего мы ожидаем.
Глубокое погружение в глубокие подходы к обучению для систем текста в SQL.
Состояние искусства и открытые проблемы в интерфейсах естественного языка с данными.
Естественный язык для SQL: где мы сегодня?

? NL2SQL бумажный список

Рассвет естественного языка для SQL: мы полностью готовы?
Текст до SQL, наделенные большими языковыми моделями: эталонная оценка.
Червейные предварительно обученные языковые модели и крупные языковые модели для генерации NL2SQL с нулевым выстрелом.
Создание кратких описаний схемы базы данных для экономически эффективного подсказования моделей крупных языков.
Sciencebenchmark: сложный реальный эталон для оценки естественного языка для SQL Systems.
Коды: к созданию языковых моделей с открытым исходным кодом для текста до SQL.
FINSQL: модель-алкогольную плату на основе LLMS Text-Sql Framework для финансового анализа.
Фиолетовый: Сделать большую языковую модель лучшим писателем SQL.
MetASQL: Generate-Then-Rank Framework для естественного языка для перевода SQL.
ARCHER: меченный человеком набор данных Text-SQL с арифметикой, здравым смыслом и гипотетическими рассуждениями.
Синтезирование данных текста к SQL из слабых и сильных LLMS.
Понимание влияния шума в текстовом до-кв.
Мне нужна помощь! Оценка способности LLM запрашивать поддержку пользователей: тематическое исследование по генерации текста в SQL.
PTD-SQL: разделение и целевое бурение с LLMS в текстовом до SQL.
Улучшение поиска-аугированного текста в SQL с рейтингом на основе AST и обрезкой схемы.
Ориентированный на данные текст к SQL с большими языковыми моделями.
SPIDER 2.0: Оценка языковых моделей на реальных рабочих процессах предприятия Text-Sql.
Структура управляла большой языковой моделью для поколения SQL.
RSL-SQL: надежная схема, связывающая в поколении текста к SQL.
TrustSQL: сравнительная задача достоверности текста до SQL с помощью штрафной оценки.
SQL-GEN: Соединение диалектного разрыва для текста до SQL с помощью синтетических данных и слияния модели.
Основание естественного языка для перевода SQL с помощью самоэкспенцировки на основе данных.
Chase-SQL: мультиплановые рассуждения и предпочтения оптимизированный выбор кандидатов в текстовом до SQL.
К оптимизации генерации SQL через маршрутизацию LLM.
Xiyan-SQL: ансамбль с несколькими поколениями для текста до SQL.
E-SQL: прямая схема, связывающая через обогащение вопросов в текстовом до-SQL.
DB-GPT: расширение возможностей взаимодействия базы данных с частными крупными языковыми моделями.
Смерть схемы, связывающая? Текст-квл в эпоху хорошо разобранных языковых моделей.
DBCOPILOT: масштабирование запросов естественного языка в массовых базах данных.
Шахматы: контекстуальное использование для эффективного синтеза SQL.
PET-SQL: усовершенствование двух раундов с подсказкой с перекрестным согласованностью.
COE-SQL: Внутреннее обучение для многоворотного текста в SQL с цепочкой излузов.
Ambrosia: эталон для неоднозначных вопросов разбора в вопросах базы данных.
Несколько выстрелов трансляции текста в SQL с использованием структуры и контента быстрого обучения.
CATSQL: к реальному естественному языку для приложений SQL.
DIN-SQL: разложенное в контекстном порядке изучение текста в SQL с самокоррекцией.
Данные неоднозначности возвращаются: как документация улучшает текст GPT-SQL.
ACT-SQL: Внутреннее обучение для текста к SQL с автоматически генерируемой цепью.
Селективные демонстрации для междоменного текста в SQL.
RESDSQL: схема развязки, связывание и диапазон скелета для текста в SQL.
Graphix-T5: смешивание предварительно обученных трансформаторов со слоями с графом для анализа текста в SQL.
Улучшение обобщения в семантическом анализе на основе языковых моделей: два простых семантических метода на основе границ.
G ³ R: фреймворк с графическим направлением для создания генерации комплексного и междомена.
Важность синтеза высококачественных данных для анализа текста до SQL.
Знайте, что я не знаю: обработка неоднозначных и неизвестных вопросов для текста в SQL.
C3: с нулевым выстрелом текст в SQL с CHATGPT
MAC-SQL: многоагентная совместная структура для текста в SQL.
SQLFORMER: Глубокое генерация графиков запросов с ауторегрессивным запросом для перевода текста в SQL.

NL2SQL

Мы создаем график разработки теста и отмечаем соответствующие этапы. Вы можете получить более подробную информацию из этой главы: эталон

Куда мы идем?

Sovle Open NL2SQL Проблема
Разработать экономически эффективные методы NL2SQL
Сделайте достоверные решения NL2SQL
NL2SQL с неоднозначными и неуточненными NL -запросами
Синтез адаптивного обучения синтез

Каталог для нашего опроса

Вы можете получить больше информации от нашего подраздела. Мы вводим репрезентативные статьи о связанных концепциях:

Предварительная обработка
NL2SQL Методы перевода
Пост-обработка
Эталон
Оценка
Анализ ошибок

? Практическое руководство для новичка

Как получить данные:

Мы собираем для вас ссылки NL2SQL и ссылки для загрузки. Вы можете получить более подробную информацию из этой главы: эталон
Код анализа для тестов доступен в каталоге src/dataset_analysis . Отчеты о анализе эталона можно найти в report/ каталоге.

Как построить модель NL2SQL на основе LLM:

LITGPT Repository Link
Этот репозиторий предлагает доступ к более чем 20 высокопроизводительным моделям крупных языков (LLM) с комплексными руководствами для предварительной подготовки, тонкой настройки и развертывания в масштабе. Он предназначен для того, чтобы быть для начинающих, с реализациями от скрещивания и без сложных абстракций.
Лама-фактическая репозитория связывает единую эффективную точную настройку 100+ LLMS. Интегрируя различные модели с масштабируемыми учебными ресурсами, передовыми алгоритмами, практическими трюками и комплексными инструментами мониторинга экспериментов, эта настройка обеспечивает эффективные и более быстрые выводы с помощью оптимизированных API и пользовательских интерфейсов.
Точная настраиваемая и встроенная обучение для перепозитория Bird-SQL.
Учебное пособие как для точной настройки, так и для обучения в контексте обеспечивается эталоном Bird-SQL.

? Как оценить вашу модель:

Мы собираем для вас метрики оценки NL2SQL. Вы можете получить более подробную информацию из этой главы: оценка

NLSQL360 Ссылка
NL2SQL360 является испытательным стендом для мелкозернистой оценки решений NL2SQL. Наш тестовый стенд объединяет существующие тесты NL2SQL, репозиторий моделей NL2SQL и различные показатели оценки, которые направлены на предоставление интуитивно понятной и удобной платформы для обеспечения как стандартной, так и индивидуальной оценки производительности.
Теста-suite-sql-eval ссылка на хранилище
Этот репо содержит метрику оценки тестового пакета для 11 задач текста к SQL. В настоящее время это официальный показатель Spider, Sparc и Cosql, а также теперь доступен для академических, ATIS, консультирования, географии, IMDB, ресторанов, ученых и Yelp (опираясь на удивительную работу Кэтрин и Джонатана).
Официальная репозитория Bird-SQL
Теперь это официальный инструмент Bird-SQL. Это первый инструмент для предложения VES и предоставления официального набора тестов.

? ️ дорожная карта и поток решений

Вы можете получить некоторое вдохновение от дорожной карты и потока решений.

Приложения, связанные с NL2SQL:

CHAT2DB: ИИ-управляемый инструмент базы данных и клиент SQL, самый горячий клиент GUI, поддержка MySQL, Oracle, PostgreSQL, DB2, SQL Server, DB2, SQLITE, H2, Clickhouse и многое другое.
DB-GPT: Структура разработки приложений для приложений для нативных данных ИИ с AWEL (Язык выражения агента рабочего процесса) и агенты.
Postgres.new: в браузера Postgres Sandbox с помощью ИИ.

Расширять

Дополнительная информация