تنزيل GenAug - تنزيل رمز المصدر GenAug

GenAug

كود الذكاء الاصطناعي

1.0.0

تنزيل

Genaug: زيادة البيانات لمولدات النص

رمز Genaug ، المقدم في Genaug: زيادة البيانات لمولدات النصوص المحددة المنشورة في ورشة عمل EMNLP 2020 DEELIO. يمكنك الاستشهاد بها على النحو التالي:

 @inproceedings{feng-etal-2020-genaug,
    title = "{G}en{A}ug: Data Augmentation for Finetuning Text Generators",
    author = "Feng, Steven Y. and Gangal, Varun and Kang, Dongyeop and Mitamura, Teruko and Hovy, Eduard",
    booktitle = "Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures",
    month = nov, year = "2020", address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.deelio-1.4",
    doi = "10.18653/v1/2020.deelio-1.4", pages = "29--42",
}

المؤلفون: ستيفن ي. فنغ ، فارون جانجال ، دونجيوب كانغ ، تيروكو ميتامورا ، إدوارد هوفي

يمكن العثور على الكلام هنا . يمكن العثور على الشرائح والموارد الأخرى هنا .

ملاحظة: يجب توجيه الاستفسارات إلى [email protected] أو عن طريق فتح مشكلة هنا.

رسم

الموارد المطلوبة

Stanford POS Tagger: https://nlp.stanford.edu/software/stanford-postagger-2018-10-16.zip
Stanford Corenlp: http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip

نماذج مسبقة/محفوظة بالحيوية (على Yelp):

Bert Sentiment Regressor (Finetuned on ylr مع مراجعات النجوم): https://drive.google.com/drive/folders/1jt07zpxmmo9my5hh3mvjf8vmalzuuugf؟usp=sharing
GPT-2 (Finetuned على 2 مليون مراجعات Yelp-للتقييم بين الحيرة وتقييم Slor): https://drive.google.com/drive/folders/1j3jcw-qtdwxcyzv7lonljkvjzpxfs2h؟usp=sharing=sharing
Smerti-transformer (تم تدريبه على مجموعة فرعية من YLR): https://drive.google.com/drive/folders/1a-jynp5so4lmv3ztgkmwq7be8coftf_b؟usp=shark

بيانات

يحتوي "stopwords.txt" على قائمة من الكلمات المتوقفة المستخدمة.
يحتوي "yelp_train.txt" و "yelp_val.txt" و "yelp_test.txt" على أمثلة التدريب والتحقق من الصحة والاختبار بالكامل لـ YLR (أجزاء موجهة واستمرار).
"yelp_train_0.5.txt" و "yelp_test_0.5
"Smerti_chosen_res.txt" يحتوي على 150 اسمًا تم اختياره ككيانات بديلة لاستنتاج Smerti.
"smerti_train.csv" و "smerti_val.csv" يحتويان على انقسامات التدريب والتحقق من صحة Smerti ، على التوالي.

شفرة

يحتوي المجلد "mupmentation_methods" على رمز لمختلف أساليب تكبير Genaug (باستثناء Smerti).
يحتوي مجلد "التقييم" على رمز للتقييم. على وجه التحديد ، يتم استخدام "get_unigram_distribution.py" لمقياس Rare_words (Rwords) ، و "alualate_combined.py" يحتوي على رمز لـ Sbleu و UTR و TTR و Rwords. يحتوي المجلس الفرعي "المشاعر" على رمز لتقييم تناسق المشاعر [مزيد من التفاصيل لاحقًا].
يحتوي المجلد "Finetuning_and_generation" على البرامج النصية ورمز نماذج GPT-2 وتوليد مخرجات من نماذج GPT-2. تشغيل اثنين من البرامج النصية .sh إلى Finetune وتوليد.
يحتوي المجلد "Processing_and_setup" على رمز لمعالجة البيانات المطلوبة وإعدادها للتجارب. "continuation_postprocessor.py" ينظف مخرجات GPT-2 (على سبيل المثال علامات التعجب المتخلف) ، "genaug_finetuning_setup.ipynb" يحتوي على رمز لإعداد بيانات التعزيز النهائية لتجهيزات GPT-2 ، "genaug_smerti_processing.ipynb conduct to smerti. "genaug_yelp_dataset_processing.ipynb" يحتوي على رمز لمعالجة وإعداد بيانات مراجعات YELP لـ YLR و 2 مليون مراجعات فرعية لتقييم PPL و SLOR.

رمز طريقة تكبير Smerti

يمكن العثور على رمز لطريقة تكبير Smerti في مجلد "Genaug Smerti-Transformer" في هذا الريبو . هذا هو الريبو الرسمي لـ "Smerti for Exchange Deforce Exchange" المقدمة في Keep Call and Switch! الحفاظ على المشاعر والطلاقة في تبادل النص الدلالي المنشور في EMNLP-IJCNLP 2019.

ملاحظة: سيتم إضافة مزيد من التفاصيل والأوامر المثالية لجميع الكود في وقت لاحق.

يوسع

معلومات إضافية