[ورقة] [نموذج] [العرض التوضيحي]
لقد كان توليد الشعر مهمة صعبة في مجال معالجة اللغة الطبيعية ، حيث يتطلب من النموذج فهم الفروق الدقيقة للغة والشعور والأناقة. في هذه الورقة ، نقترح استخدام نماذج لغة كبيرة لإنشاء قصائد فيتنامية من مختلف الأنواع من مطالبات اللغة الطبيعية ، وبالتالي تسهيل عملية بديهية مع تحكم محسن في المحتوى.
يحقق نموذجنا الأكثر فعالية ، وهو GPT-3 Babbage ، درجة تقييم مخصصة قدرها 0.8 ، مصممة خصيصًا لنوع "Luc Bat" للشعر الفيتنامي. علاوة على ذلك ، نستكشف أيضًا فكرة إعادة صياغة القصائد في المطالبات النصية العادية وتنتج درجة عالية نسبيًا قدرها 0.781 في هذا النوع من "Luc Bat". تعرض هذه التجربة إمكانية ترجمة قصيدة إلى لغة عبر اللغة مع القصائد المترجمة كمدخلات مع الحفاظ على التحكم الكامل في المحتوى الذي تم إنشاؤه بشكل متزامن.
مجموعة البيانات Orignial هي مجموعة من القصائد الفيتنامية 171188 مع أنواع مختلفة: Luc-Bat ، 5-chu ، 7-chu ، 8 chu ، 4-chu. تنزيل هنا.
لمزيد من التفاصيل ، ارجع إلى قسم الإقرارات
لقد أنشأنا أيضًا مجموعات البيانات الخاصة بنا للتوليد المستند إلى الموجهات في مجلد مجموعة الموارد/البيانات.
قمنا بتدريب مصنف نوع مخصص على أساس BERT مع دقة 99.7% لتصنيف النوع الصحيح قبل التسجيل. لمزيد من التفاصيل ، ارجع إلى كلاستير الفيتنامي. سيكون هذا مفيدًا أثناء الاختبار الأعمى (حيث لم يتم تحديد هذا النوع).
رمز التدريب في هذا الريبو. لتدريب المصنف ، تشغيل:
python poem_classifier_training.py
نحن نستخدم وظيفة مخصصة لتسجيل جودة قصيدة ، تعتمد على جودة على تشكلها للقاعدة الصلبة لأنواع مختلفة من القصيدة الفيتنامية. باستخدام 3 المعايير: الطول ، النغمة والقافية على النحو التالي: score = L/10 + 3T/10 + 6R/10
الجدول 1: مقارنة نتيجة النماذج
| النماذج | لوك بات | أعمى | 7 تشو | 8 تشو | 5 تشو | 4 تشو |
|---|---|---|---|---|---|---|
| نص إلى poem | ||||||
| chatgpt (صفر طلقة) | 0.440 | 0.345 | 0.292 | 0.197 | 0.284 | 0.238 |
| دافينشي (1000 عينة) | 0.580 | - | - | - | - | - |
| بلوم (20 ألف عينة) | 0.678 | 0.596 | 0.367 | 0.279 | 0.480 | 0.440 |
| Babbage (20K عينة) | 0.718 | - | - | - | - | - |
| Babbage | 0.805 | 0.795 | 0.661 | 0.500 | 0.382 | 0.392 |
| قصيدة إلى poem | ||||||
| Babbage | 0.781 | - | - | - | - | - |
حاليا ، سجل Luc Bat أعلى بسبب حجم العينة الهائل. كما أن لديها ميل إلى جنس Luc Bat عندما لا يتم تحديد هذا النوع ، لذلك فإنه يرقى أيضًا إلى درجة عالية جدًا أثناء الاختبار الأعمى.
يستخدم إصدار OpenSource Lora لـ Bloom-7b1 في 8bit ويمكن تشغيله على كولاب. يمكنك تجربتها هنا (ربما نفدت الذاكرة والتعطل. إنها تستخدم لتشغيل إصدارات المكتبة الجديدة بشكل جيد للغاية)
@misc { huynh2024vietnamese ,
title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } ,
author = { Triet Minh Huynh and Quan Le Bao } ,
year = { 2024 } ,
eprint = { 2401.01078 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
} استلهم هذا المشروع من طريقة التقييم من مولد قصيدة SP-GPT2 من fsoft-ailab
مجموعة البيانات مأخوذة أيضًا من ريبوهم