Baca Readme Ini Dalam Bahasa Indonesien.
Indonlu ist eine Sammlung von NLU -Ressourcen (Natural Language Understanding) für Bahasa Indonesien mit 12 nachgelagerten Aufgaben. Wir bieten den Code zur Reproduktion der Ergebnisse und großen vorgeborenen Modelle ( Indoberer und Indoberer-Lite ), die mit rund 4 Milliarden Word-Corpus ( INDO4B ) und mehr als 20 GB Textdaten ausgebildet sind. Dieses Projekt wurde zunächst mit einer gemeinsamen Zusammenarbeit zwischen Universitäten und Industrie wie Institut Teknologi Bandung, Universität Multimedia Nusantara, der Hongkong University of Science and Technology, Universitas Indonesia, Gojek und Prosa.ai gestartet.
Indonlu wurde von AACL-IJCNLP 2020 akzeptiert und Sie finden die Details in unserem Artikel https://www.aclweb.org/anthology/2020.aacl-main.85.pdf. Wenn Sie eine Komponente auf Indonlu einschließlich Indo4b, FastText-Indo4b oder Indoberer in Ihrer Arbeit verwenden, geben Sie bitte das folgende Papier an:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
Überprüfen Sie unbedingt die beitragenden Richtlinien und wenden Sie sich an die Wartenden oder öffnen Sie ein Problem, um Feedbacks zu sammeln, bevor Sie Ihre PR starten.
Bitte überprüfen Sie den Link. Für jede Aufgabe gibt es ein anderes Format. Jede Einreichungsdatei beginnt immer mit der index (der ID der Testprobe nach der Reihenfolge des maskierten Testsatzes).
Für die Einreichung müssen Sie zunächst Ihre Vorhersage in pred.txt umbenennen und dann die Datei einlöschen. Danach müssen Sie das System erlauben, die Ergebnisse zu berechnen. Sie können den Fortschritt auf der Registerkarte Ihrer results problemlos überprüfen.
Wir bieten den Zugriff auf unseren großen Vorab -Datensatz. In dieser Version schließen wir alle Twitter -Tweets aufgrund von Einschränkungen der Twitter -Entwicklerrichtlinie und -vereinbarung aus.
Wir bieten 4 Indubert und 4 Indoberer-Lite Pretrainierte Sprachmodell [Link]
Wir bieten die vollständige FastText -Modelldatei (11,9 GB) und die entsprechende Vektordatei (3,9 GB)
Wir bieten kleinere FastText -Modelle mit kleineren Vokabeln für jede der 12 nachgeschalteten Aufgaben