التوليف الدقيق والتوليد النصية باستخدام مجموعة بيانات Openai على مجموعة بيانات المدونات من https://trustmeyourealive.wordpress.com/.
content-extraction : استخراج بيانات المدونة باستخدام واجهة برمجة تطبيقات WordPress
dataset : قطار ، التحقق من الصحة ، مجموعات بيانات الاختبار من المحتوى المستخرج
prepare_data.ipynb : قم بإعداد البيانات في القطار ، صالح ، ملفات اختبار
text_generation.ipyb : GPT-2 صقل على مجموعة القطار المحضرة وتوليد النصوص
إجمالي الرموز: 246446 (76 مقالة)
المفردات: 50260
مجموعة التدريب (عن طريق الخط): 2752
ملفات التعليمات البرمجية في transformers التي يجب استبدالها بعد الاستنساخ: run_generation.py و run_language_modeling.py (تعليمات في text_generation.ipynb)
بصراحة ، أنا في حالة من الرهبة/الصدمة - هذه التسلسلات تبدو مثلي حقًا ، وأنا أشعر بالارتياح تمامًا لم يتم فتح GPT -3 (حتى الآن):