كتيب NL2SQL
من هذا المستودع ، يمكنك عرض أحدث التطورات في NL2SQL. يتوافق هذا الكتيب مع ورقة الاستقصاء الخاصة بنا: دراسة استقصائية لـ NL2SQL مع نماذج لغة كبيرة: أين نحن ، وأين نحن ذاهبون؟. نقدم أيضًا شرائح تعليمية لتلخيص النقاط الرئيسية لهذا الاستطلاع. استنادًا إلى الاتجاهات في تطوير نماذج اللغة ، أنشأنا مخططًا للنهر لأساليب NL2SQL لتتبع تطور حقل NL2SQL.
إذا كنت مبتدئًا ، فلا تقلق - لقد أعددنا دليلًا عمليًا لك ، وتغطي مجموعة واسعة من المواد التأسيسية هنا. لقد لخصت تطبيقات NL2SQL ذات الصلة.

@misc { liu2024surveynl2sqllargelanguage ,
title = { A Survey of NL2SQL with Large Language Models: Where are we, and where are we going? } ,
author = { Xinyu Liu and Shuyu Shen and Boyan Li and Peixian Ma and Runzhi Jiang and Yuyu Luo and Yuxin Zhang and Ju Fan and Guoliang Li and Nan Tang } ,
year = { 2024 } ,
eprint = { 2408.05109 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.DB } ,
url = { https://arxiv.org/abs/2408.05109 } ,
}؟ NL2SQL مقدمة
يمكن أن تقلل ترجمة استعلامات اللغة الطبيعية للمستخدمين (NL) إلى استعلامات SQL بشكل كبير من الحواجز التي تحول دون الوصول إلى قواعد البيانات العلائقية ودعم التطبيقات التجارية المختلفة. تم تحسين أداء NL2SQL بشكل كبير مع ظهور نماذج اللغة (LMS). في هذا السياق ، من الأهمية بمكان تقييم موقفنا الحالي ، وتحديد حلول NL2SQL التي ينبغي اعتمادها لسيناريوهات محددة من قبل الممارسين ، وتحديد موضوعات البحث التي يجب على الباحثين استكشافها بعد ذلك.

؟ دورة حياة NL2SQL

النموذج: تقنيات ترجمة NL2SQL التي لا تعالج فقط غموض NL وفك التوصيف ، ولكن أيضًا قم بتخطيط NL بشكل صحيح مع مخطط قاعدة البيانات والحالات ؛
البيانات: من جمع بيانات التدريب ، توليف البيانات بسبب ندرة البيانات ، إلى معايير NL2SQL ؛
التقييم: تقييم أساليب NL2SQL من زوايا متعددة باستخدام مقاييس وبيانات مختلفة ؛
تحليل الخطأ: تحليل أخطاء NL2SQL للعثور على السبب الجذري وتوجيه نماذج NL2SQL لتتطور.
؟ أين نحن؟
نقوم بتصنيف تحديات NL2SQL إلى خمسة مستويات ، كل منها يتناول عقبات محددة. تغطي المستويات الثلاثة الأولى تحديات تم معالجتها أو يتم معالجتها حاليًا ، مما يعكس التطور التدريجي لـ NL2SQL. يمثل المستوى الرابع التحديات التي نهدف إلى معالجتها في مرحلة LLMS ، بينما يحدد المستوى الخامس رؤيتنا لنظام NL2SQL في السنوات الخمس المقبلة.
وصفنا تطور حلول NL2SQL من منظور نماذج اللغة ، وتصنيفها إلى أربع مراحل. لكل مرحلة من مراحل NL2SQL ، نقوم بتحليل التغييرات في المستخدمين المستهدفين ومدى معالجة التحديات.

؟ طرق NL2SQL القائمة على الوحدة
نلخص الوحدات الرئيسية لحلول NL2SQL التي تستخدم نموذج اللغة.
- تعمل المعالجة المسبقة بمثابة تعزيز لمدخلات النموذج في عملية تحليل NL2SQL. يمكنك الحصول على مزيد من التفاصيل من هذا الفصل: المعالجة المسبقة
- تشكل طرق ترجمة NL2SQL جوهر حل NL2SQL ، المسؤول عن تحويل استعلامات اللغة الطبيعية للمدخلات إلى استعلامات SQL. يمكنك الحصول على مزيد من التفاصيل من هذا الفصل: طرق ترجمة NL2SQL
- تعتبر ما بعد المعالجة خطوة حاسمة لتحسين استعلامات SQL التي تم إنشاؤها ، مما يضمن تلبية توقعات المستخدم بشكل أكثر دقة. يمكنك الحصول على مزيد من التفاصيل من هذا الفصل: ما بعد المعالجة

مسح NL2SQL والبرنامج التعليمي
- دراسة استقصائية لـ NL2SQL مع نماذج لغة كبيرة: أين نحن ، وأين نذهب?
- واجهات قاعدة بيانات الجيل التالي: دراسة استقصائية عن النص المستند إلى LLM إلى SQL.
- نموذج اللغة الكبيرة المعززة إلى الجيل إلى SQL: دراسة استقصائية.
- من اللغة الطبيعية إلى SQL: مراجعة أنظمة النص إلى SQL المستندة إلى LLM.
- دراسة استقصائية حول استخدام نماذج لغة كبيرة لمهام النص إلى SQL.
- واجهات اللغة الطبيعية للاستعلام عن البيانات الجدولية وتصورها: مسح.
- واجهات اللغة الطبيعية لقواعد البيانات مع التعلم العميق.
- دراسة استقصائية حول مقاربات التعلم العميق للنص إلى SQL.
- التطورات الحديثة في النص إلى SQL: دراسة استقصائية لما لدينا وما نتوقعه.
- الغوص العميق في أساليب التعلم العميق لأنظمة النص إلى SQL.
- أحدث التحديات والتحديات المفتوحة في واجهات اللغة الطبيعية للبيانات.
- لغة طبيعية لـ SQL: أين نحن اليوم؟
؟ NL2SQL قائمة الورق
- فجر اللغة الطبيعية إلى SQL: هل نحن مستعدون تمامًا؟
- نص إلى SQL الذي يتم تمكينه بواسطة نماذج لغة كبيرة: تقييم قياسي.
- النماذج اللغوية المتشابكة مسبقًا ونماذج لغة كبيرة لتوليد NL2SQL صفر.
- توليد أوصاف مختصرة لمخططات قواعد البيانات من أجل تقديم نماذج لغة كبيرة فعالة من حيث التكلفة.
- ScienceBenchmark: معيار معقد في العالم الحقيقي لتقييم اللغة الطبيعية لأنظمة SQL.
- الرموز: نحو بناء نماذج لغة مفتوحة المصدر للنص إلى SQL.
- FINSQL: إطار عمل To-to-to-SQL المستند إلى SQL Model-Agnostic LLMS.
- اللون الأرجواني: جعل نموذج لغة كبير كاتب SQL أفضل.
- Metasql: إطار عمل لتوليد الرتبة للترجمة الطبيعية لترجمة SQL.
- آرتشر: مجموعة بيانات نصية إلى SQL ذات العلامات البشرية مع تفكير الحساب والمنطق والتفسير.
- توليف بيانات النص إلى SQL من LLMs ضعيفة وقوية.
- فهم آثار الضوضاء في النص إلى SQL: فحص المعيار المقاعد الطيور.
- انا بحاجة الى مساعدة! تقييم قدرة LLM على طلب دعم المستخدمين: دراسة حالة على توليد النص إلى SQL.
- PTD-SQL: التقسيم والحفر المستهدفة مع LLMs في النص إلى SQL.
- تحسين النص الذي تم التغلب عليه من أجل الاسترجاع مع الترتيب القائم على AST وتقليم المخطط.
- النص المتمحور حول البيانات إلى SQL مع نماذج لغة كبيرة.
- Spider 2.0: تقييم نماذج اللغة على سير العمل المؤسسي في العالم الحقيقي.
- بنية نموذج اللغة الكبيرة لتوليد SQL.
- RSL-SQL: مخطط قوي يرتبط في جيل النص إلى SQL.
- TrustSQL: موثوقية ترسيخ النص إلى SQL مع تسجيل القائمة على العقوبة.
- SQL-GEN: سد فجوة اللهجة للنص إلى SQL عبر البيانات الاصطناعية ودمج النموذج.
- تأريض اللغة الطبيعية لترجمة SQL مع عمليات الاستغناء عن الذات القائمة على البيانات.
- Chase-SQL: التفكير متعدد المسارات وتفضيل اختيار المرشح المحسّن في Text to SQL.
- نحو تحسين توليد SQL عبر توجيه LLM.
- XIYAN-SQL: إطار عمل متعدد الأولد من أجل النص إلى SQL.
- E-SQL: المخطط المباشر الذي يربط عبر إثراء الأسئلة في النص إلى SQL.
- DB-GPT: تمكين تفاعلات قاعدة البيانات مع نماذج اللغة الكبيرة الخاصة.
- وفاة مخطط الربط؟ نص إلى SQL في عصر نماذج اللغة المعلقة جيدًا.
- DBCOPILOT: توسيع نطاق الاستعلام عن اللغة الطبيعية لقواعد البيانات الضخمة.
- الشطرنج: تسخير السياق لتوليف SQL الفعال.
- PET-SQL: تحسين جولة محسّنة من جولة من النص إلى SQL مع التوافق المتبادل.
- COE-SQL: التعلم داخل السياق للمنفح إلى SQL متعددة مع سلسلة التحديدات.
- أمبروسيا: معيار لتحليل الأسئلة الغامضة في استعلامات قاعدة البيانات.
- ترجمة نصية إلى SQL قليلة باستخدام الهيكل والتعلم المطالبة بالمحتوى.
- CATSQL: نحو اللغة الطبيعية في العالم الحقيقي لتطبيقات SQL.
- DIN-SQL: تعلم التعلم داخل السياق من النص إلى SQL مع التصحيح الذاتي.
- غموض البيانات يعود إلى الوراء: كيف تحسن الوثائق نص GPT إلى SQL.
- ACT-SQL: التعلم داخل السياق لـ Text to-SQL مع سلسلة الفكرة التي تم إنشاؤها تلقائيًا.
- مظاهرات انتقائية للنص عبر المجال إلى SQL.
- RESDSQL: مخطط فك الارتباط وربط الهيكل العظمي لتحليل النص إلى SQL.
- Graphix-T5: خلط المحولات التي تم تدريبها مسبقًا مع طبقات مدركة للرسم البياني لتحليل النص إلى SQL.
- تحسين التعميم في التحليل الدلالي المستند إلى نموذج اللغة إلى SQL: تقنيتان قائم على الحدود الدلالية البسيطة.
- G 3 R: إطار توليد وموجه من الرسم البياني لتوليد نص معقد وعبر المجال إلى SQL.
- أهمية توليف بيانات عالية الجودة لتحليل النص إلى SQL.
- تعرف على ما لا أعرفه: التعامل مع أسئلة غامضة وغير معروفة للنص إلى SQL.
- C3: نص Zero-Shot to-SQL مع chatgpt
- Mac-SQL: إطار تعاوني متعدد الوكلاء لـ Text to-SQL.
- SQLFormer: توليد الرسم البياني للاستعلام العميق التلقائي لترجمة النص إلى SQL.
NL2SQL القياس
ننشئ جدولًا زمنيًا لتطوير المعيار وعلامة المعالم المعالم ذات الصلة. يمكنك الحصول على مزيد من التفاصيل من هذا الفصل: المعيار

إلى أين نحن ذاهبون؟
- Sovle Open NL2SQL مشكلة
- تطوير طرق NL2SQL الفعالة من حيث التكلفة
- اجعل NL2SQL Solutions جديرة بالثقة
- NL2SQL مع استفسارات NL غامضة وغير محددة
- تخليق بيانات التدريب التكيفي
كتالوج لاستطلاعنا
يمكنك الحصول على مزيد من المعلومات من قسمنا الفرعي. نقدم أوراق تمثيلية حول المفاهيم ذات الصلة:
- ما قبل المعالجة
- طرق ترجمة NL2SQL
- ما بعد المعالجة
- معيار
- تقييم
- تحليل الخطأ
؟ دليل عملي للمبتدئ
كيفية الحصول على البيانات:
- نجمع ميزات NL2SQL القياسية وروابط التنزيل لك. يمكنك الحصول على مزيد من التفاصيل من هذا الفصل: المعيار
- يتوفر رمز التحليل للمعايير في دليل
src/dataset_analysis . يمكن العثور على تقارير التحليل القياسي في report/ الدليل.
كيفية بناء نموذج NL2SQL المستند إلى LLM:
رابط مستودع Litgpt
يوفر هذا المستودع إمكانية الوصول إلى أكثر من 20 نماذج لغة كبيرة عالية الأداء (LLMs) مع أدلة شاملة للتدريب ، والضبط ، والنشر على نطاق واسع. إنه مصمم ليكون صديقًا للمبتدئين مع تطبيقات من الخدش وليس التجريدات المعقدة.
LLAMA-Factory Rostory LINK موحّد صقل فعال فعال من 100+ LLMS. دمج النماذج المختلفة مع موارد التدريب القابلة للتطوير ، والخوارزميات المتقدمة ، والحيل العملية ، وأدوات مراقبة التجربة الشاملة ، يتيح هذا الإعداد الاستدلال الفعال والأسرع من خلال واجهات برمجة التطبيقات المحسنة و UIS.
التعلم الدقيق والتعلم داخل السياق لرابط مستودع Bird-SQL القياسي
يتم توفير برنامج تعليمي لكل من التعلم الناعم والمكافحة من خلال معيار Bird-SQL.
؟ كيفية تقييم النموذج الخاص بك:
نجمع مقاييس التقييم NL2SQL بالنسبة لك. يمكنك الحصول على مزيد من التفاصيل من هذا الفصل: التقييم
NLSQL360 رابط مستودع
NL2SQL360 هو اختبار لتقييم الحبيبات الدقيقة لحلول NL2SQL. يدمجنا اختبار NL2SQL المعايير الحالية ، ومستودع من نماذج NL2SQL ، ومقاييس التقييم المختلفة ، والتي تهدف إلى توفير منصة بديهية وسهلة الاستخدام لتمكين كل من تقييمات الأداء القياسية والمخصصة.
اختبار مستودع الاختبار-SQL-Eval
يحتوي هذا الريبو على مقياس تقييم لجناح الاختبار لـ 11 مهمة نصية إلى SQL. إنه الآن المقياس الرسمي لـ Spider و SPARC و COSQL ، وهو متاح الآن للأكاديمية ، ATIS ، المشورة ، الجغرافيا ، IMDB ، المطاعم ، الباحث ، وليلب (بناء على العمل المذهل للكاثرين وجوناثان).
Bird-SQL-Official Rink
إنها الآن الأداة الرسمية للطيور SQL. إنها الأداة الأولى لاقتراح VES وإعطاء مجموعة اختبار رسمية.
خريطة الطريق وتدفق القرار
يمكنك الحصول على بعض الإلهام من خارطة الطريق وتدفق القرار.

التطبيقات ذات الصلة NL2SQL:
- THAT2DB: أداة قاعدة بيانات AI-AI-AI-SQL ، عميل GUI الأكثر سخونة ، يدعم MySQL ، Oracle ، PostgreSQL ، DB2 ، SQL Server ، DB2 ، SQLite ، H2 ، Clickhouse ، وأكثر من ذلك.
- DB-GPT: إطار تطوير تطبيقات البيانات الأصلي AI مع AWEL (لغة تعبير سير العمل الوكلاء) والوكلاء.
- postgres.new: صندوق الرمل في المتصفح مع مساعدة منظمة العفو الدولية.