Masakhane هو جهد بحثي لـ NLP للغات الأفريقية المصدر المفتوح ، على مستوى القارة ، موزعة وعبر الإنترنت. يضم مستودع GitHub البيانات والرمز والنتائج والبحث لبناء نتائج NLP الأساسية المفتوحة للغات الأفريقية.
الموقع: Masakhane.io
بالنسبة إلى إفريقيا : لبناء وتسهيل مجتمع من الباحثين في NLP ، وتوصيله وتنميته ، وتحفيز ومشاركة المزيد من الأبحاث ، وبناء أدوات مفيدة للتطبيقات في الحكومة والطب والعلوم والتعليم ، لتمكين الحفاظ على اللغة وزيادة وضوحها العالمية وأهميتها.
بالنسبة إلى NLP Research : لبناء مجموعات البيانات والأدوات لتسهيل أبحاث NLP على اللغات الأفريقية ، وتوضع مشكلات بحثية جديدة لإثراء مشهد Research NLP.
بالنسبة لمجتمع الباحثين العالميين : لاكتشاف أفضل الممارسات للبحوث الموزعة ، لتطبيقها من قبل مجتمعات الأبحاث الناشئة الأخرى.
هناك العديد من الطرق للمساهمة في ماساخان .
تريد المزيد من التفاصيل؟ تحقق من مبادراتنا الحالية
انضم إلى الركود
طلب الانضمام إلى مجموعة Google
هذا حتى نتمكن من عرضك على صفحة الويب الخاصة بنا masakhane.io. يرجى إرسال ما يلي عبر البريد الإلكتروني إلى [email protected]:
يرجى التحلي بالصبر مع الرد عبر عنوان بريدنا الإلكتروني ، نحن نتخلف عن إدارتنا ، في وقت Covid-19.
عادة ، إذا كان لديك بعض خبرة البرمجة ، فنحن نشجعك على البدء في رحلتك مع Masakhane ، من خلال بناء خط أساس لغتك. هل تشعر بالتوتر من الخضوع أو عدم التأكد من من أين تبدأ؟ يرجى الانضمام إلى اجتماعنا الأسبوعي وسنقوم بإقرانك مع معلم!
لدينا مثال على دفتر كولاب الذي يدرب نموذجًا لترجمة اللغة الإنجليزية إلى الزولو. يمكنك تحديده عن طريق الانتقال إلى قسم GitHub عند فتح مشروع جديد.
هذا تحد كبير ، لكن لحسن الحظ لدينا مكان للبدء! في ACL 2019 ، تم نشر هذه الورقة. القصة القصيرة؟ تبين أن مجتمع شهود يهوه يترجم العديد من الوثائق وليس كلهم متدينون. وتمثيل لغتهم متنوع.
تحقق من جدول البيانات هذا هنا لمعرفة ما إذا كانت لغتك مميزة ، ثم انتقل إلى Opus للعثور على الروابط إلى البيانات: http://opus.nlpl.eu/jw300.php
نحن نقدم أيضًا برنامج نصي لسهولة التنزيل والمعالجة BPE لبيانات JW300 من OPUS: jw300_utils/get_jw300.py . يتطلب تثبيت حزمة Python Opustools-PKG. مثال: بالنسبة إلى أجزاء dowloading ومعالجة الأجزاء المسبقة (ACH) وأجزاء Nyaneka (NYK) من JW300 ، اتصل بالنص مثل هذا: python get_jw300.py ach nyk --output_dir jw300
ثم لا يزال لدينا بعض الخيارات! كان مجتمعنا يبحث على نطاق واسع وبعيد! انضم إلى مجموعة Slack و Google لمناقشة الطريق إلى الأمام!
خطوتك التالية هي استخدام مجموعة بيانات JW300 في دفتر كولاب وتشغيله. معظم النصائح هي ضمن دفتر الملاحظات نفسه. نحن نحسن باستمرار هذا الكمبيوتر الدفتري ونفتح أي توصيات. كافح من أجل الذهاب؟ ثم دعونا نعمل معًا لإنشاء دفتر ملاحظات يسهل استخدامه! قم بإنشاء مشكلة github أو مراسلتنا عبر البريد الإلكتروني!
مدهش! لقد قمت بإنشاء خط الأساس الأول لك. الآن نحتاج إلى الحصول على الكود والبيانات والنتائج في مستودع GitHub هذا
من أجل أن نفكر في مسؤول تقديم النتائج ، نحتاج إلى بضعة أشياء:
دفتر الملاحظات الذي سيقوم بتشغيل الرمز. يجب أن يعمل دفتر الملاحظات على حساب شخص آخر ، ويجب الوصول إلى البيانات التي يستخدمها علنًا (أي إذا قمت بتنزيل دفتر الملاحظات وتشغيله ، يجب أن يعمل - لذلك لا ينبغي استخدام أي ملفات خاصة). إذا كنت تتساءل عن كيفية القيام بذلك ، فلا تخف! أسقطنا خطًا وسنعمل معًا للتأكد من أن التقديم جيد! سائدا
مجموعات الاختبار - من أجل تكرار ذلك واختبارها مقابل نتائجك ، نحتاج إلى تحميل مجموعات الاختبار المحفوظة بشكل منفصل.
A readMe.md الذي يصف (أ) البيانات المستخدمة - ESP مهمة إذا كانت مجموعة من المصادر (ب) أي تغييرات مثيرة للاهتمام على النموذج (ج) ربما بعض تحليل بعض الجمل من النموذج النهائي
النموذج نفسه. يمكن أن يكون هذا في شكل رابط Google Drive أو Dropbox. سنجد منزلاً لنماذجنا المدربة قريبًا. لكي يتم استخدام النماذج لتعلم النقل ، ومزيد من التدريب ، أو نشرها ، تحتاج إلى توفير:
.ckpt ) ،src_vocab.txt ، trg_vocab.txt ) ،config.yaml ) ،النتائج - تدريب القطار ، DEV ، واختبار مجموعة BLEU
سنقوم بزيادة توسيع تقنيات التحليل الخاصة بنا ، لذا من المهم للغاية أن يكون لدينا نسخة من النموذج ومجموعات الاختبار الآن حتى لا نحتاج إلى إعادة تشغيل التدريب لمجرد إجراء التحليل
بمجرد الحصول على كل ما سبق ، يرجى إنشاء طلب سحب في المستودع. انظر المبادئ التوجيهية هنا.
انظر أيضًا هذا كمثال على بنية مساهمتك
بناء:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
مثال:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
فيما يلي رابط لطلب سحب يحتوي على الأشياء ذات الصلة.
هل تشعر بالتوتر من المساهمة في طلب السحب الأول أو غير متأكد من كيفية المتابعة؟ من فضلك لا تشعر بالإحباط! قم بإسقاط رسالة بريد إلكتروني أو رسالة الركود وسنعمل معًا للحصول على مساهمتك في شكل السفينة!
رائع! لذلك هناك العديد من الطرق لتحسين النتائج. لقد ارتكبنا بعضًا من هذه الوثيقة. هل لديك أفكار أخرى؟ إسقاط لنا خطا أو إرسال العلاقات العامة!
نود أن نسلط الضوء على كيفية عدم وجود أي من النماذج المدربة مناسبة لاستخدام الإنتاج . في ورقتنا هنا ، نستكشف تأثيرات أداء التدريب على مثل هذا النموذج على مجموعات بيانات JW300 - لا تزال النماذج غير قادرة على التعميم على المجالات غير الدينية. كقاعدة عامة ، لا ينبغي للمرء أبدًا نشر نموذج NLP في مجال لم يتم تدريبه عليه. وحتى إذا تم تدريبه على المجال ذي الصلة ، فيجب تحليل النموذج بالتفصيل لفهم التحيزات والأضرار المحتملة . تهدف هذه النماذج إلى العمل كعمل مستمر لتحفيز المزيد من الأبحاث ، وفهم فشل هذه الأنظمة بشكل أفضل.
انظر مدونة السلوك
bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}