BACA README INI DALAM BAHASA INDONESIA.
Indonlu adalah kumpulan sumber daya pemahaman bahasa alami (NLU) untuk Bahasa Indonesia dengan 12 tugas hilir. Kami menyediakan kode untuk mereproduksi hasil dan model pra-terlatih besar ( IndoBert dan Indobert-Lite ) yang dilatih dengan sekitar 4 miliar kata korpus ( Indo4B ), lebih dari 20 GB data teks. Proyek ini awalnya dimulai oleh kolaborasi bersama antara universitas dan industri, seperti Institut Teknologi Bandung, Universitas Multimedia Nusantara, Universitas Sains dan Teknologi Hong Kong, Universitas Indonesia, Gojek, dan Prossa.ai.
Indonlu telah diterima oleh AACL-IJCNLP 2020 dan Anda dapat menemukan detail dalam makalah kami https://www.aclweb.org/anthology/2020.aacl-main.85.pdf. Jika Anda menggunakan komponen apa pun di Indonlu termasuk Indo4b, FastText-Indo4b, atau Indobert dalam pekerjaan Anda, silakan kutip makalah berikut:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
Pastikan untuk memeriksa pedoman yang berkontribusi dan hubungi pengelola atau buka masalah untuk mengumpulkan umpan balik sebelum memulai PR Anda.
Harap periksa tautannya. Untuk setiap tugas, ada format yang berbeda. Setiap file pengiriman selalu dimulai dengan kolom index (ID sampel uji mengikuti urutan set uji bertopeng).
Untuk pengiriman, pertama -tama Anda perlu mengganti nama prediksi Anda menjadi pred.txt , lalu zip file. Setelah itu, Anda perlu mengizinkan sistem untuk menghitung hasilnya. Anda dapat dengan mudah memeriksa kemajuan di tab results Anda.
Kami menyediakan akses ke dataset pretraining besar kami. Dalam versi ini, kami mengecualikan semua tweet Twitter karena pembatasan kebijakan dan perjanjian pengembang Twitter.
Kami menyediakan 4 model bahasa pretrained indobert dan 4 indobert-lite [tautan]
Kami menyediakan file model FastText yang tidak terbagi penuh (11,9 GB) dan file vektor yang sesuai (3,9 GB)
Kami menyediakan model FastText yang lebih kecil dengan kosakata yang lebih kecil untuk masing -masing dari 12 tugas hilir