BACA Readme INI DALAM BAHASA Индонезия.
Indonlu - это коллекция ресурсов для понимания естественного языка (NLU) для Бахаса Индонезии с 12 нисходящими задачами. Мы предоставляем код для воспроизведения результатов и крупных предварительно обученных моделей ( Indobert и Indobert-Lite ), обученных около 4 миллиардов слов Corpus ( Indo4b ), более 20 ГБ текстовых данных. Первоначально этот проект был начат совместным сотрудничеством между университетами и промышленностью, таким как институт Teknologi Bandung, Universitas Multimedia Nusantara, Гонконгский университет науки и технологии, Университет Индонезии, Годжек и Проса.
Indonlu был принят AACL-IJCNLP 2020, и вы можете найти подробности в нашей статье https://www.aclweb.org/anthology/2020.aacl-main.85.pdf. Если вы используете какой-либо компонент на Indonlu, включая Indo4b, FastText-Indo4b или Indobert в вашей работе, пожалуйста, цитируйте следующую статью:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
Обязательно проверьте рекомендации по содействию и свяжитесь с сопровождающими или откройте проблему для сбора обратной связи, прежде чем запустить пиар.
Пожалуйста, проверьте ссылку. Для каждой задачи существует другой формат. Каждый файл отправки всегда начинается с столбца index (идентификатор образец испытаний после порядка набора тестового набора в масках).
Для представления сначала вам нужно переименовать свой прогноз в pred.txt , а затем застегнуть файл. После этого вам необходимо позволить системе вычислять результаты. Вы можете легко проверить прогресс на вашей вкладке results .
Мы предоставляем доступ к нашему большому набору данных. В этой версии мы исключаем все твиты в Твиттере из -за ограничений политики и соглашения разработчика Твиттера.
Мы предоставляем 4 Indobert и 4 модели Indobert-Lite, предварительно подготовленной [ссылка]
Мы предоставляем полный файл модели FASTTEXT -FASTTEXT (11,9 ГБ) и соответствующий векторный файл (3,9 ГБ)
Мы предоставляем меньшие модели быстрого текста с меньшим словарным запасом для каждой из 12 задач вниз по течению