Baca Readme Ini Dalam Bahasa อินโดนีเซีย
Indonlu เป็นแหล่งรวบรวมทรัพยากรความเข้าใจภาษาธรรมชาติ (NLU) สำหรับบาฮาซาอินโดนีเซียที่มีงานดาวน์สตรีม 12 งาน เราให้รหัสเพื่อทำซ้ำผลลัพธ์และโมเดลที่ผ่านการฝึกอบรมมาแล้วขนาดใหญ่ ( Indobert และ Indobert-Lite ) ได้รับการฝึกฝนด้วย Corpus (Indo4b) ประมาณ 4 พันล้านคำ ( Indo4b ) มากกว่า 20 GB ของข้อมูลข้อความ โครงการนี้เริ่มต้นจากการทำงานร่วมกันร่วมกันระหว่างมหาวิทยาลัยและอุตสาหกรรมเช่น Institut Teknologi Bandung, Universitas Multimedia Nusantara, มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง, Universitas Indonesia, Gojek และ Prosa.ai
Indonlu ได้รับการยอมรับจาก AACL-IJCNLP 2020 และคุณสามารถค้นหารายละเอียดในกระดาษของเรา https://www.aclweb.org/anthology/2020.aacl-main.85.pdf หากคุณใช้ส่วนประกอบใด ๆ ใน Indonlu รวมถึง Indo4B, FastText-INDO4B หรือ Indobert ในงานของคุณโปรดอ้างอิงกระดาษต่อไปนี้:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
ตรวจสอบให้แน่ใจว่าได้ตรวจสอบแนวทางที่มีส่วนร่วมและติดต่อผู้ดูแลหรือเปิดปัญหาเพื่อรวบรวมคำติชมก่อนที่จะเริ่มต้นการประชาสัมพันธ์ของคุณ
กรุณาตรวจสอบลิงค์ สำหรับแต่ละงานมีรูปแบบที่แตกต่างกัน ทุกไฟล์ส่งจะเริ่มต้นด้วยคอลัมน์ index เสมอ (ID ของตัวอย่างทดสอบตามลำดับของชุดทดสอบหน้ากาก)
สำหรับการส่งก่อนอื่นคุณต้องเปลี่ยนชื่อการทำนายของคุณเป็น pred.txt จากนั้นซิปไฟล์ หลังจากนั้นคุณต้องอนุญาตให้ระบบคำนวณผลลัพธ์ คุณสามารถตรวจสอบความคืบหน้าในแท็บ results ของคุณได้อย่างง่ายดาย
เราให้การเข้าถึงชุดข้อมูลการเตรียมการขนาดใหญ่ของเรา ในรุ่นนี้เราไม่รวมทวีต Twitter ทั้งหมดเนื่องจากข้อ จำกัด ของนโยบายและข้อตกลงของนักพัฒนา Twitter
เราให้บริการโมเดลภาษาที่ผ่านการฝึกฝนของ Indobert 4 Indobert และ 4 [ลิงก์]
เราให้ไฟล์รุ่น FastText ที่ไม่ได้ใช้งานเต็มรูปแบบ (11.9 GB) และไฟล์เวกเตอร์ที่เกี่ยวข้อง (3.9 GB)
เราให้บริการรุ่น FastText ขนาดเล็กที่มีคำศัพท์ที่เล็กกว่าสำหรับงานดาวน์สตรีม 12 รายการแต่ละครั้ง