Baca readme ini dalam bahasa indonesia.
Indonlu هي مجموعة من موارد فهم اللغة الطبيعية (NLU) لباهاسا إندونيسيا مع 12 مهمة في اتجاه مجرى النهر. نحن نقدم الرمز لإعادة إنتاج النتائج والنماذج الكبيرة المدربة مسبقًا ( Indobert و Indobert-Lite ) المدربين بحوالي 4 مليارات كلمة ( Indo4B ) ، أكثر من 20 جيجابايت من بيانات النص. بدأ هذا المشروع في البداية تعاونًا مشتركًا بين الجامعات والصناعة ، مثل معهد Teknologi Bandung و Universitas Multimedia Nusantara وجامعة هونغ كونغ للعلوم والتكنولوجيا ، جامعة إندونيسيا ، Gojek ، و Prosa.ai.
تم قبول Indonlu من قبل AACL-IJCNLP 2020 ويمكنك العثور على التفاصيل في ورقة https://www.aclweb.org/anthology/2020.aacl-main.85.pdf. إذا كنت تستخدم أي مكون في IndonLu بما في ذلك indo4b أو fasttext-indo4b أو indobert في عملك ، يرجى الاستشهاد بالورقة التالية:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
تأكد من التحقق من المبادئ التوجيهية المساهمة والاتصال بالمشرفين أو فتح مشكلة لجمع التعليقات قبل بدء العلاقات العامة.
يرجى التحقق من الرابط. لكل مهمة ، هناك تنسيق مختلف. يبدأ كل ملف إرسال دائمًا مع عمود index (معرف عينة الاختبار باتباع ترتيب مجموعة الاختبار المقنعة).
للتقديم ، تحتاج أولاً إلى إعادة تسمية تنبؤك إلى pred.txt ، ثم zip الملف. بعد ذلك ، تحتاج إلى السماح للنظام بحساب النتائج. يمكنك بسهولة التحقق من التقدم في علامة تبويب results الخاصة بك.
نحن نوفر الوصول إلى مجموعة بياناتنا الكبيرة. في هذا الإصدار ، نستبعد جميع تغريدات Twitter بسبب قيود سياسة واتفاق مطور Twitter.
نحن نقدم 4 indobert و 4 indobert-lite نموذج اللغة المسبق [رابط]
نحن نقدم ملف نموذج FastText الكامل (11.9 جيجابايت) وملف المتجه المقابل (3.9 جيجابايت)
نحن نوفر نماذج أصغر من النصوص مع مفردات أصغر لكل من المهام الـ 12 المصب