
تساعدك مكتبة Python هذه في زيادة NLP لمشاريع التعلم الآلي. تفضل بزيارة هذه المقدمة لفهم زيادة البيانات في NLP. Augmenter هو العنصر الأساسي للزيادة في حين أن Flow هو خط أنابيب لأوركسترا Multi uppmenter معًا.


| قسم | وصف |
|---|---|
| عرض سريع | كيفية استخدام هذه المكتبة |
| زيادة | تقديم جميع أساليب التعزيز المتاحة |
| تثبيت | كيفية تثبيت هذه المكتبة |
| التغييرات الأخيرة | أحدث تعزيز |
| قراءة التمديد | المزيد من الأمثلة أو الأبحاث في الحياة الواقعية |
| مرجع | مرجع الموارد الخارجية مثل البيانات أو النموذج |
| زيادة | هدف | زيادة | فعل | وصف |
|---|---|---|---|---|
| نص | شخصية | لوحة المفاتيح | بديل | محاكاة خطأ مسافة لوحة المفاتيح |
| نص | Ocraug | بديل | محاكاة خطأ محرك OCR | |
| نص | عشوائي | أدخل ، بديل ، مبادلة ، حذف | تطبيق زيادة عشوائيا | |
| نص | كلمة | متطورة | بديل | استبدل كلمة عكس المعنى وفقًا لـ Wordnet antonym |
| نص | سياق wordwordembsaug | أدخل ، بديل | تغذية كلمة المحيطة إلى نموذج لغة Bert أو Distilbert أو Roberta أو XLNET لمعرفة أكثر الكلمة لزيادة التزايد | |
| نص | Randomwordaug | مبادلة ، محصول ، حذف | تطبيق زيادة عشوائيا | |
| نص | تهجئة | بديل | استبدل الكلمة وفقًا لقاموس خطأ الإملاء | |
| نص | Splitaug | ينقسم | تقسيم كلمة واحدة إلى كلمتين بشكل عشوائي | |
| نص | الممتمر | بديل | استبدل كلمة مماثلة وفقًا لـ WordNet/ PPDB مرادف | |
| نص | tfidfaug | أدخل ، بديل | استخدم TF-IDF لمعرفة كيف يجب زيادة الكلمة | |
| نص | Wordembsaug | أدخل ، بديل | الاستفادة من Word2Vec أو قفاز أو تضمينات fasttext لتطبيق زيادة | |
| نص | الخلفية الخلفية | بديل | الاستفادة من نموذجين للترجمة لزيادة | |
| نص | محفوظة | بديل | استبدل الكلمات المحجوزة | |
| نص | جملة | contextualwordembsforsentenceaug | أدخل | أدخل الجملة وفقًا لـ XLNET أو GPT2 أو DistilGPT2 التنبؤ |
| نص | Abstsummaug | بديل | تلخيص المقالة عن طريق طريقة تلخيص الجذابة | |
| نص | Lambadaaug | بديل | استخدام نموذج اللغة لإنشاء النص ثم استخدام نموذج التصنيف للاحتفاظ بنتائج عالية الجودة | |
| إشارة | صوتي | cropaug | يمسح | حذف مقطع الصوت |
| إشارة | Loudnessaug | بديل | ضبط حجم الصوت | |
| إشارة | Maskaug | بديل | قناع الصوت | |
| إشارة | Noiseaug | بديل | حقن الضوضاء | |
| إشارة | pitchaug | بديل | ضبط درجة الصوت | |
| إشارة | Shiftaug | بديل | تحول البعد إلى الأمام/ للخلف | |
| إشارة | Speedaug | بديل | ضبط سرعة الصوت | |
| إشارة | VTLPAUG | بديل | تغيير الجهاز الصوتي | |
| إشارة | Normalizeaug | بديل | تطبيع الصوت | |
| إشارة | PolarityInverseaug | بديل | مبادلة إيجابية وسلبية للصوت | |
| إشارة | الطيفية | الترددات | بديل | قم بتعيين كتلة القيم إلى الصفر وفقًا لبعد التردد |
| إشارة | timemaskingaug | بديل | اضبط كتلة القيم على الصفر وفقًا لبعد الوقت | |
| إشارة | Loudnessaug | بديل | ضبط مستوى الصوت |
| زيادة | زيادة | وصف |
|---|---|---|
| خط أنابيب | تسلسلي | تطبيق قائمة وظائف التعزيز بالتتابع |
| خط أنابيب | أحيانا | تطبيق بعض وظائف التعزيز بشكل عشوائي |
تدعم المكتبة Python 3.5+ في Linux و Window Platform.
لتثبيت المكتبة:
pip install numpy requests nlpaugأو تثبيت أحدث إصدار (تضمين ميزات بيتا) من Github مباشرة
pip install numpy git+https://github.com/makcedward/nlpaug.gitأو تثبيت على كوندا
conda install -c makcedward nlpaugإذا كنت تستخدم translationaug و contextualwordembsaug و contextualwordembsforsentenceaug و Abstsummaug ، وتثبيت التبعيات التالية أيضًا
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceإذا كنت تستخدم Lambadaaug ، فقم بتثبيت التبعيات التالية أيضًا
pip install simpletransformers > =0.61.10إذا كنت تستخدم antonymaug ، synonymaug ، قم بتثبيت التبعيات التالية أيضًا
pip install nltk > =3.4.5إذا كنت تستخدم WordEmbsaug (Word2Vec أو Glove أو FastText) ، فعليك تنزيل النموذج الذي تم تدريبه أولاً وتثبيت التبعيات التالية أيضًا
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2إذا كنت تستخدم Synonymaug (PPDB) ، فإن تنزيل الملف من URI التالي. قد لا تتمكن من تشغيل uppmenter إذا حصلت على ملف PPDB من موقع الويب الآخر
http://paraphrase.org/ # /downloadإذا كنت تستخدم Pitchaug و Speedaug و VTLPAUG ، فقم بتثبيت التبعيات التالية أيضًا
pip install librosa > =0.9.1 matplotlibانظر Changelog لمزيد من التفاصيل.
تستخدم هذه المكتبة البيانات (على سبيل المثال التقاط من الإنترنت) ، والأبحاث (على سبيل المثال فكرة Mupmenter التالية) ، النموذج (على سبيل المثال باستخدام النموذج الذي تم تدريبه مسبقًا) ، انظر مصدر البيانات لمزيد من التفاصيل.
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}تم الاستشهاد بهذه الحزمة من قبل العديد من الكتب وورشة العمل وأوراق البحث الأكاديمي (70+). فيما يلي بعض الأمثلة ويمكنك زيارتك هنا للحصول على القائمة الكاملة.
Sakares Saengkaew | Binoy Dalal | Emrecan çelik |