Baca Readme INI DALAM BAHASA 인도네시아.
Indonlu는 12 개의 다운 스트림 과제를 가진 Bahasa Indonesia의 자연 언어 이해 (NLU) 자원의 모음입니다. 우리는 20GB 이상의 텍스트 데이터를 약 40 억 개의 단어 코퍼스 ( Indo4b )로 훈련 한 결과와 대규모 미리 훈련 된 모델 ( Indobert and Indobert-lite )을 재현하기위한 코드를 제공합니다. 이 프로젝트는 처음에 Institut Teknologi Bandung, Universitas Multimedia Nusantara, 홍콩 과학 기술 대학, Universitas Indonesia, Gojek 및 Prosa.ai와 같은 대학과 산업 간의 공동 협력으로 시작되었습니다.
Indonlu는 AACL-IJCNLP 2020에 의해 받아 들여졌으며 당사 논문에서 세부 사항을 찾을 수 있습니다. Indo4b, FastText-Indo4b 또는 Indobert를 포함하여 Indonlu에서 모든 구성 요소를 사용하는 경우 다음 논문을 인용하십시오.
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
기고 가이드 라인을 확인하고 관리자에게 연락하거나 PR을 시작하기 전에 피드백을 수집하기 위해 문제를 열어야합니다.
친절하게 링크를 확인하십시오. 각 작업마다 다른 형식이 있습니다. 모든 제출 파일은 항상 index 열 (마스크 테스트 세트 순서에 따른 테스트 샘플의 ID)으로 시작합니다.
제출을 위해서, 먼저 예측 이름을 pred.txt 로 바꾸고 파일을 우편으로 지정해야합니다. 그런 다음 시스템이 결과를 계산할 수 있도록해야합니다. results 탭에서 진행 상황을 쉽게 확인할 수 있습니다.
우리는 대규모 사전 해독 데이터 세트에 대한 액세스를 제공합니다. 이 버전에서는 Twitter 개발자 정책 및 계약의 제한으로 인해 모든 Twitter 트윗을 제외합니다.
우리는 4 개의 indobert와 4 개의 Indobert-lite 사회수 언어 모델을 제공합니다 [Link]
우리는 전체 UNC 기반 FastText 모델 파일 (11.9GB)과 해당 벡터 파일 (3.9GB)을 제공합니다.
우리는 12 개의 다운 스트림 작업 각각에 대한 작은 어휘를 더 작은 FastText 모델을 제공합니다.