Baca Readme Ini Dalam Bahasa印度尼西亞。
Indonlu是印度尼西亞巴哈薩的自然語言理解(NLU)資源的集合,其中包含12個下游任務。我們提供了複製結果的代碼和大型預培訓模型( Indobert和Indobert-Lite ),該模型接受了約40億個單詞語料庫( Indo4b ),超過20 GB的文本數據。該項目最初是由大學和行業之間的共同合作開始的,例如Teknologi Bandung,多媒體努桑塔拉大學,香港科學技術大學,印度尼西亞大學,Gojek和Prosa.ai。
Indonlu已被AACL-IJCNLP 2020接受,您可以在我們的論文中找到詳細信息https://www.aclweb.org/anthology/2020.aacl-main.85.pdf。如果您在Indonlu上使用任何組件,包括Indo4b,FastText-Indo4b或Indobert在您的工作中,請引用以下論文:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
請務必檢查貢獻指南,並聯繫維護者或打開問題以在開始PR之前收集反饋。
請檢查鏈接。對於每個任務,都有不同的格式。每個提交文件始終從index列開始(測試樣本的ID遵循蒙版測試集的順序)。
對於提交,首先,您需要將預測重命名為pred.txt ,然後將文件劃為文件。之後,您需要允許系統計算結果。您可以輕鬆檢查results選項卡中的進度。
我們提供了對大型預讀數據集的訪問權限。在此版本中,由於Twitter開發人員政策和協議的限制,我們排除了所有Twitter推文。
我們提供4個印度和4個印度 - 萊特 - 列表預熟語的語言模型[鏈接]
我們提供完整的未效力fastText模型文件(11.9 GB)和相應的向量文件(3.9 GB)
我們為12個下游任務中的每一個提供了較小的FastText型號