masakhane mt Download - masakhane mt Source Code Download

masakhane mt

شفرة المصدر الأخرى

1.0.0

تنزيل

Masakhane - مجموعة حية من مشاريع NLP للأفارقة ، من قبل الأفارقة

Masakhane هو جهد بحثي لـ NLP للغات الأفريقية المصدر المفتوح ، على مستوى القارة ، موزعة وعبر الإنترنت. يضم مستودع GitHub البيانات والرمز والنتائج والبحث لبناء نتائج NLP الأساسية المفتوحة للغات الأفريقية.

الموقع: Masakhane.io

الأهداف

بالنسبة إلى إفريقيا : لبناء وتسهيل مجتمع من الباحثين في NLP ، وتوصيله وتنميته ، وتحفيز ومشاركة المزيد من الأبحاث ، وبناء أدوات مفيدة للتطبيقات في الحكومة والطب والعلوم والتعليم ، لتمكين الحفاظ على اللغة وزيادة وضوحها العالمية وأهميتها.
بالنسبة إلى NLP Research : لبناء مجموعات البيانات والأدوات لتسهيل أبحاث NLP على اللغات الأفريقية ، وتوضع مشكلات بحثية جديدة لإثراء مشهد Research NLP.
بالنسبة لمجتمع الباحثين العالميين : لاكتشاف أفضل الممارسات للبحوث الموزعة ، لتطبيقها من قبل مجتمعات الأبحاث الناشئة الأخرى.

قاعة المشاهير للمساهمين لدينا

تقدم

شاهد ما قبل الطباعة التي سيتم نشرها في نتائج EMNLP 2020 هنا
انظر إلى معايير الترجمة الآلية المقدمة لدينا هنا! لا تستطيع رؤية لغتك؟ يرجى تقديم معيار!
تحقق من ورقتنا التي سيتم نشرها في Workshop @ ICLR 2020
تحقق من الأوراق التي كتبها المشاركون هنا
ابحث عن المزيد حول مبادراتنا الحالية
انظر إلى قائمة مستندات المجتمع لدينا
اقرأ ملاحظات الاجتماع الأسبوعية
اتبع منشورنا على الوسط

كيف يمكنني المساهمة؟

هناك العديد من الطرق للمساهمة في ماساخان .

تدريب نموذج - المساهمة في نموذج مدرب والرمز ذي الصلة للغة الخاصة بك
التحليل - المساهمة في تحليل البيانات/النماذج لأي لغات أفريقية. لا تحتاج إلى أي خبرة فنية لهذا! إذا كنت لغويًا ، فيمكننا إقرانك مع ممارس ترجمة الآلة ويمكنك المساعدة في المساهمة في التحليل
البيانات - مساعدة في إنشاء أو العثور على مجموعات بيانات لغتك
الوثائق - مساعدة توثيق مناقشاتنا ، التقدم. هذا مطلوب للغاية. أو المساهمة في توثيق "دفتر الملاحظات" الأساسي الذي سيحسن تجربة الآخرين
الإرشاد - تقديم المشورة أو المساعدة في ضبط نماذج لغاتها ومجموعات البيانات الخاصة بهم ، أو مساعدة الناس في البدء
المشرف - يمكن أن يكون العمل مع العديد من الباحثين تحديًا كبيرًا! المساعدة في المهام الإدارية
حساب - مساعدة في البنية التحتية وحساب! هل لديك حساب احتياطي للتبرع؟ دعنا نعرف! نحن نبحث دائمًا عن المزيد!
العصف الذهني انضم إلى اجتماعاتنا الأسبوعية ، وتقديم المشورة أو الأفكار
سرد القصص - أخبر قصصنا للعالم من خلال إجراء محادثات حول المجتمع ، والمساهمة في نشرنا المتوسط ، أو التعامل مع وسائل الإعلام
MLOPS & ML Engineering - هل تستمتع بالتخفيض في جانب MLOPS من التعلم الآلي؟ هل أنت مطور برامج يتطلع إلى صقل قدرات مهندس ML؟ انضم إلينا للمساعدة في إنشاء أدوات لدعم قابلية الاستنساخ وجمع البيانات ومشاركة النماذج!

تريد المزيد من التفاصيل؟ تحقق من مبادراتنا الحالية

كيف يمكنني الانضمام؟

انضم إلى الركود
طلب الانضمام إلى مجموعة Google
هذا حتى نتمكن من عرضك على صفحة الويب الخاصة بنا masakhane.io. يرجى إرسال ما يلي عبر البريد الإلكتروني إلى [email protected]:
- اسمك الكامل
- رابط وسائل التواصل الاجتماعي المفضل
- اللغة (اللغات) التي ستعمل عليها (أو تخصصك العام ذي الصلة - إذا كنت خبيرًا في الترجمة الآلية و - ترغب في تعزيز المجتمع من خلال ذلك)
- صورة
- انتمارك ودورك.

يرجى التحلي بالصبر مع الرد عبر عنوان بريدنا الإلكتروني ، نحن نتخلف عن إدارتنا ، في وقت Covid-19.

بناء نموذج الترجمة الآلي الأول الخاص بك

عادة ، إذا كان لديك بعض خبرة البرمجة ، فنحن نشجعك على البدء في رحلتك مع Masakhane ، من خلال بناء خط أساس لغتك. هل تشعر بالتوتر من الخضوع أو عدم التأكد من من أين تبدأ؟ يرجى الانضمام إلى اجتماعنا الأسبوعي وسنقوم بإقرانك مع معلم!

1. إلقاء نظرة على رمز المثال

لدينا مثال على دفتر كولاب الذي يدرب نموذجًا لترجمة اللغة الإنجليزية إلى الزولو. يمكنك تحديده عن طريق الانتقال إلى قسم GitHub عند فتح مشروع جديد.

2. العثور على بيانات لغتي؟!

هذا تحد كبير ، لكن لحسن الحظ لدينا مكان للبدء! في ACL 2019 ، تم نشر هذه الورقة. القصة القصيرة؟ تبين أن مجتمع شهود يهوه يترجم العديد من الوثائق وليس كلهم متدينون. وتمثيل لغتهم متنوع.

تحقق من جدول البيانات هذا هنا لمعرفة ما إذا كانت لغتك مميزة ، ثم انتقل إلى Opus للعثور على الروابط إلى البيانات: http://opus.nlpl.eu/jw300.php

نحن نقدم أيضًا برنامج نصي لسهولة التنزيل والمعالجة BPE لبيانات JW300 من OPUS: jw300_utils/get_jw300.py . يتطلب تثبيت حزمة Python Opustools-PKG. مثال: بالنسبة إلى أجزاء dowloading ومعالجة الأجزاء المسبقة (ACH) وأجزاء Nyaneka (NYK) من JW300 ، اتصل بالنص مثل هذا: python get_jw300.py ach nyk --output_dir jw300

لا يمكنك العثور على لغتك في مجموعة بيانات JW300؟

ثم لا يزال لدينا بعض الخيارات! كان مجتمعنا يبحث على نطاق واسع وبعيد! انضم إلى مجموعة Slack و Google لمناقشة الطريق إلى الأمام!

3. قم بتشغيل دفتر الملاحظات!

خطوتك التالية هي استخدام مجموعة بيانات JW300 في دفتر كولاب وتشغيله. معظم النصائح هي ضمن دفتر الملاحظات نفسه. نحن نحسن باستمرار هذا الكمبيوتر الدفتري ونفتح أي توصيات. كافح من أجل الذهاب؟ ثم دعونا نعمل معًا لإنشاء دفتر ملاحظات يسهل استخدامه! قم بإنشاء مشكلة github أو مراسلتنا عبر البريد الإلكتروني!

4. لقد تم ذلك! لدي نتائج! الآن ماذا؟

مدهش! لقد قمت بإنشاء خط الأساس الأول لك. الآن نحتاج إلى الحصول على الكود والبيانات والنتائج في مستودع GitHub هذا

من أجل أن نفكر في مسؤول تقديم النتائج ، نحتاج إلى بضعة أشياء:

دفتر الملاحظات الذي سيقوم بتشغيل الرمز. يجب أن يعمل دفتر الملاحظات على حساب شخص آخر ، ويجب الوصول إلى البيانات التي يستخدمها علنًا (أي إذا قمت بتنزيل دفتر الملاحظات وتشغيله ، يجب أن يعمل - لذلك لا ينبغي استخدام أي ملفات خاصة). إذا كنت تتساءل عن كيفية القيام بذلك ، فلا تخف! أسقطنا خطًا وسنعمل معًا للتأكد من أن التقديم جيد! سائدا
مجموعات الاختبار - من أجل تكرار ذلك واختبارها مقابل نتائجك ، نحتاج إلى تحميل مجموعات الاختبار المحفوظة بشكل منفصل.
A readMe.md الذي يصف (أ) البيانات المستخدمة - ESP مهمة إذا كانت مجموعة من المصادر (ب) أي تغييرات مثيرة للاهتمام على النموذج (ج) ربما بعض تحليل بعض الجمل من النموذج النهائي
النموذج نفسه. يمكن أن يكون هذا في شكل رابط Google Drive أو Dropbox. سنجد منزلاً لنماذجنا المدربة قريبًا. لكي يتم استخدام النماذج لتعلم النقل ، ومزيد من التدريب ، أو نشرها ، تحتاج إلى توفير:
1. نقطة تفتيش مع المعلمات (ملف .ckpt ) ،
2. المصدر والمفردات المستهدفة ( src_vocab.txt ، trg_vocab.txt ) ،
3. ملف التكوين ( config.yaml ) ،
4. وإذا كان ذلك ممكنًا: رموز BPE أو البرامج النصية لخط أنابيب ما قبل المعالجة. Joey NMT يحفظ الثلاثة الأولى في دليل النموذج.
النتائج - تدريب القطار ، DEV ، واختبار مجموعة BLEU

سنقوم بزيادة توسيع تقنيات التحليل الخاصة بنا ، لذا من المهم للغاية أن يكون لدينا نسخة من النموذج ومجموعات الاختبار الآن حتى لا نحتاج إلى إعادة تشغيل التدريب لمجرد إجراء التحليل

بمجرد الحصول على كل ما سبق ، يرجى إنشاء طلب سحب في المستودع. انظر المبادئ التوجيهية هنا.

هيكل العلاقات العامة الخاصة بي:

انظر أيضًا هذا كمثال على بنية مساهمتك

بناء:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

مثال:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

فيما يلي رابط لطلب سحب يحتوي على الأشياء ذات الصلة.

هل تشعر بالتوتر من المساهمة في طلب السحب الأول أو غير متأكد من كيفية المتابعة؟ من فضلك لا تشعر بالإحباط! قم بإسقاط رسالة بريد إلكتروني أو رسالة الركود وسنعمل معًا للحصول على مساهمتك في شكل السفينة!

5. لدي خط أساس. ماذا أفعل لتحسينه؟

رائع! لذلك هناك العديد من الطرق لتحسين النتائج. لقد ارتكبنا بعضًا من هذه الوثيقة. هل لديك أفكار أخرى؟ إسقاط لنا خطا أو إرسال العلاقات العامة!

ملاحظات حول نشر النموذج

نود أن نسلط الضوء على كيفية عدم وجود أي من النماذج المدربة مناسبة لاستخدام الإنتاج . في ورقتنا هنا ، نستكشف تأثيرات أداء التدريب على مثل هذا النموذج على مجموعات بيانات JW300 - لا تزال النماذج غير قادرة على التعميم على المجالات غير الدينية. كقاعدة عامة ، لا ينبغي للمرء أبدًا نشر نموذج NLP في مجال لم يتم تدريبه عليه. وحتى إذا تم تدريبه على المجال ذي الصلة ، فيجب تحليل النموذج بالتفصيل لفهم التحيزات والأضرار المحتملة . تهدف هذه النماذج إلى العمل كعمل مستمر لتحفيز المزيد من الأبحاث ، وفهم فشل هذه الأنظمة بشكل أفضل.

مدونة لقواعد السلوك

انظر مدونة السلوك

مرجع

bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-16
الحجم 214.25MB
من Github

تطبيقات ذات صلة

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل

masakhane mt

Masakhane - مجموعة حية من مشاريع NLP للأفارقة ، من قبل الأفارقة

الأهداف

قاعة المشاهير للمساهمين لدينا

تقدم

كيف يمكنني المساهمة؟

كيف يمكنني الانضمام؟

بناء نموذج الترجمة الآلي الأول الخاص بك

1. إلقاء نظرة على رمز المثال

2. العثور على بيانات لغتي؟!

لا يمكنك العثور على لغتك في مجموعة بيانات JW300؟

3. قم بتشغيل دفتر الملاحظات!

4. لقد تم ذلك! لدي نتائج! الآن ماذا؟

هيكل العلاقات العامة الخاصة بي:

5. لدي خط أساس. ماذا أفعل لتحسينه؟

ملاحظات حول نشر النموذج

مدونة لقواعد السلوك

مرجع

النسخة التجريبية من مدير MT

عالم إم تي

التطبيق دراجة Meituan MT

نسخة أندرويد من MT Photos

يعود MT

MT صورة اللص

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express