Baca Readme Ini Dalam Bahasa印度尼西亚。
Indonlu是印度尼西亚巴哈萨的自然语言理解(NLU)资源的集合,其中包含12个下游任务。我们提供了复制结果的代码和大型预培训模型( Indobert和Indobert-Lite ),该模型接受了约40亿个单词语料库( Indo4b ),超过20 GB的文本数据。该项目最初是由大学和行业之间的共同合作开始的,例如Teknologi Bandung,多媒体努桑塔拉大学,香港科学技术大学,印度尼西亚大学,Gojek和Prosa.ai。
Indonlu已被AACL-IJCNLP 2020接受,您可以在我们的论文中找到详细信息https://www.aclweb.org/anthology/2020.aacl-main.85.pdf。如果您在Indonlu上使用任何组件,包括Indo4b,FastText-Indo4b或Indobert在您的工作中,请引用以下论文:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
请务必检查贡献指南,并联系维护者或打开问题以在开始PR之前收集反馈。
请检查链接。对于每个任务,都有不同的格式。每个提交文件始终从index列开始(测试样本的ID遵循蒙版测试集的顺序)。
对于提交,首先,您需要将预测重命名为pred.txt ,然后将文件划为文件。之后,您需要允许系统计算结果。您可以轻松检查results选项卡中的进度。
我们提供了对大型预读数据集的访问权限。在此版本中,由于Twitter开发人员政策和协议的限制,我们排除了所有Twitter推文。
我们提供4个印度和4个印度 - 莱特 - 列表预熟语的语言模型[链接]
我们提供完整的未效力fastText模型文件(11.9 GB)和相应的向量文件(3.9 GB)
我们为12个下游任务中的每一个提供了较小的FastText型号