Baca Readme Ini Dalam Bahasa Indonesia.
Indonlu es una colección de recursos de comprensión del lenguaje natural (NLU) para Bahasa Indonesia con 12 tareas aguas abajo. Proporcionamos el código para reproducir los resultados y los grandes modelos previamente capacitados ( Indobert e Indobert-Lite ) entrenados con alrededor de 4 mil millones de palabras de palabras ( indo4b ), más de 20 GB de datos de texto. Este proyecto se inició inicialmente por una colaboración conjunta entre universidades e industria, como Institut Teknologi Bandung, Universitas Multimedia Nusantara, la Universidad de Ciencia y Tecnología de Hong Kong, Universitas Indonesia, Gojek y Prosa.ai.
Indonlu ha sido aceptado por AACL-IJCNLP 2020 y puede encontrar los detalles en nuestro documento https://www.aclweb.org/anthology/2020.aaclmain.85.pdf. Si está utilizando algún componente en Indonlu, incluyendo indo4b, fastText-indo4b o indobert en su trabajo, cite el siguiente documento:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
Asegúrese de verificar las pautas contribuyentes y comunicarse con los mantenedores o abrir un problema para recopilar comentarios antes de comenzar su PR.
Por favor, consulte el enlace. Para cada tarea, hay un formato diferente. Cada archivo de envío siempre comienza con la columna index (la ID de la muestra de prueba después del orden del conjunto de pruebas enmascaradas).
Para la presentación, primero debe cambiar el nombre de su predicción a pred.txt , luego cierre el archivo. Después de eso, debe permitir que el sistema calcule los resultados. Puede verificar fácilmente el progreso en su pestaña results .
Proporcionamos el acceso a nuestro gran conjunto de datos de pretrenesa. En esta versión, excluimos todos los tweets de Twitter debido a las restricciones de la política y el acuerdo del desarrollador de Twitter.
Proporcionamos 4 Modelo de lenguaje previado a la pretrada de Indobert y 4 indobert-lite [enlace]
Proporcionamos el archivo de modelo FastText completo no basado (11.9 GB) y el archivo vectorial correspondiente (3.9 GB)
Proporcionamos modelos FastText más pequeños con vocabulario más pequeño para cada una de las 12 tareas aguas abajo