Baca readme ini dalam bahasaインドネシア。
Indonluは、12のダウンストリームタスクを備えたBahasa Indonesiaの自然言語理解(NLU)リソースのコレクションです。約40億語の単語コーパス( Indo4b )で訓練された、結果と大規模な事前訓練モデル( IndobertおよびIndobert-Lite )を再現するためのコードを提供します。このプロジェクトは、当初、大学と産業間の共同コラボレーションによって開始されました。たとえば、Institut Teknologi Bandung、Multimedia Nusantara大学、香港科学技術大学、インドネシア大学、Gojek、Prosa.aiなどです。
IndonluはAACL-IJCNLP 2020によって受け入れられており、私たちの論文https://www.aclweb.org/anthology/2020.aacl-main.85.pdfで詳細を見つけることができます。 Indo4B、FastText-Indo4B、またはIndobertを含むIndonluでコンポーネントを使用している場合は、次の論文を引用してください。
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
PRを開始する前に、貢献ガイドラインを確認してメンテナーに連絡するか、フィードバックを収集するために問題を開いてください。
リンクをご覧ください。各タスクについて、異なる形式があります。すべての送信ファイルは常にindex列(マスクテストセットの順序に続くテストサンプルのID)から始まります。
提出のために、最初に予測をpred.txtに変更し、次にファイルをzipする必要があります。その後、システムが結果を計算できるようにする必要があります。 resultsタブの進捗状況を簡単に確認できます。
大規模な事前トレーニングデータセットへのアクセスを提供します。このバージョンでは、Twitter開発者のポリシーと合意の制限により、すべてのTwitterツイートを除外します。
4つのインドベルトと4つのインドベルトライトの前提条件モデル[リンク]を提供します
完全に覆われているFastTextモデルファイル(11.9 GB)と対応するベクトルファイル(3.9 GB)を提供します
12のダウンストリームタスクのそれぞれに対して、より小さな高速テキストモデルを提供します。