Baca Readme ini Dalam Bahasa Indonésie.
Indonlu est une collection de ressources de compréhension du langage naturel (NLU) pour Bahasa Indonésie avec 12 tâches en aval. Nous fournissons le code pour reproduire les résultats et les grands modèles pré-formés ( Indobert et Indobert-Lite ) formés avec environ 4 milliards de corpus de mots ( INDO4B ), plus de 20 Go de données de texte. Ce projet a été initialement lancé par une collaboration conjointe entre les universités et l'industrie, comme l'Institut Teknologi Bandung, l'Universitas Multimedia Nusantara, l'Université des sciences et technologies de Hong Kong, Universitas Indonésie, Gojek et Prosa.ai.
Indonlu a été accepté par aacl-ijcnlp 2020 et vous pouvez trouver les détails de notre article https://www.aclweb.org/anthology/2020.aacl-main.85.pdf. Si vous utilisez un composant sur Indonlu, y compris INDO4B, FastText-Indo4b ou Indobert dans votre travail, veuillez citer l'article suivant:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
Assurez-vous de vérifier les lignes directrices contributives et de contacter les responsables ou d'ouvrir un problème pour recueillir les commentaires avant de démarrer votre RP.
Veuillez vérifier le lien. Pour chaque tâche, il existe un format différent. Chaque fichier de soumission commence toujours par la colonne index (l'ID de l'échantillon de test suivant l'ordre de l'ensemble de test masqué).
Pour la soumission, vous devez d'abord renommer votre prédiction dans pred.txt , puis zipter le fichier. Après cela, vous devez permettre au système de calculer les résultats. Vous pouvez facilement vérifier la progression de votre onglet results .
Nous fournissons l'accès à notre grand ensemble de données de pré-formation. Dans cette version, nous excluons tous les tweets Twitter en raison des restrictions de la politique et de l'accord du développeur Twitter.
Nous fournissons 4 Indobert et 4 Indobert-Lite Modèle de langage prétrainé [Lien]
Nous fournissons le fichier de modèle FastText complet complet (11,9 Go) et le fichier vectoriel correspondant (3,9 Go)
Nous fournissons des modèles FastText plus petits avec un vocabulaire plus petit pour chacune des 12 tâches en aval