Baca Readme Ini Dalam Bahasa Indonésia.
Indonlu é uma coleção de recursos de compreensão da linguagem natural (NLU) para a Bahasa Indonésia com 12 tarefas a jusante. Fornecemos o código para reproduzir os resultados e grandes modelos pré-treinados ( IndoBert e IndoBert-Lite ) treinados com cerca de 4 bilhões de palavras corpus ( Indo4b ), mais de 20 GB de dados de texto. Este projeto foi iniciado inicialmente por uma colaboração conjunta entre universidades e indústria, como o Instituto Teknologi Bandung, a Universita Multimedia Nusantara, a Universidade de Ciência e Tecnologia de Hong Kong, Universitas Indonesia, Gojek e Prosa.ai.
O Indonlu foi aceito pelo AACL-IJCNLP 2020 e você pode encontrar os detalhes em nosso artigo https://www.aclweb.org/anthology/2020.aacl-main.85.pdf. Se você estiver usando qualquer componente no Indonlu, incluindo Indo4b, FastText-Indo4b ou IndoBert em seu trabalho, cite o seguinte artigo:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
Verifique as diretrizes contribuintes e entre em contato com os mantenedores ou abra um problema para coletar feedbacks antes de iniciar seu PR.
Por favor, verifique o link. Para cada tarefa, existe um formato diferente. Todo arquivo de envio sempre começa com a coluna index (o ID da amostra de teste seguindo a ordem do conjunto de testes mascarado).
Para o envio, primeiro você precisa renomear sua previsão no pred.txt e depois zip o arquivo. Depois disso, você precisa permitir que o sistema calcule os resultados. Você pode verificar facilmente o progresso na guia results .
Fornecemos o acesso ao nosso grande conjunto de dados pré -treinamento. Nesta versão, excluímos todos os tweets do Twitter devido a restrições da política e contrato de desenvolvedor do Twitter.
Fornecemos 4 Modelo de Indobert e 4 Indobert-Lite de linguagem pré-teria [link]
Fornecemos o arquivo de modelo FastText completo (11,9 GB) e o arquivo vetorial correspondente (3,9 GB)
Fornecemos modelos de texto rápido menor com vocabulário menor para cada uma das 12 tarefas a jusante