Masakhaneは、オープンソース、大陸全体、分散型、オンラインであるアフリカ言語のNLPの研究努力です。このGitHubリポジトリには、アフリカ言語のオープンベースラインNLP結果を構築するためのデータ、コード、結果、および調査があります。
ウェブサイト:Masakhane.io
アフリカのために:NLP研究者のコミュニティを構築および促進し、それをつなぎ、成長させ、さらなる研究を促進し、共有し、政府、医学、科学、教育のアプリケーションの有用なツールを構築し、言語の保存を可能にし、世界的な視界と関連性を高めます。
NLP研究のために、アフリカ言語に関するNLP研究を促進するためのデータセットとツールを構築し、NLPの研究環境を豊かにするための新しい研究問題を提起すること。
グローバルな研究者コミュニティのために:分散研究のためのベストプラクティスを発見するために、他の新興研究コミュニティによって適用される。
マサハネに貢献する方法はたくさんあります。
詳細が必要ですか?現在のイニシアチブをご覧ください
スラックに参加してください
Googleグループに参加するリクエスト
これは、私たちのWebページMasakhane.ioであなたを紹介できるようにです。以下を[email protected]にメールしてください:
私たちの電子メールアドレスを介して応答を我慢してください。私たちは、Covid-19の時代に、私たちの管理に非常に遅れています。
通常、プログラミングの経験がある場合は、言語のベースラインを構築することで、マサハネとの旅を始めることをお勧めします。提出するのに緊張していると感じたり、どこから始めればよいのかわからない?毎週の会議に参加してください。メンターとペアリングします。
英語からzulまでの翻訳のモデルを訓練するコラブノートブックの例があります。新しいプロジェクトを開くときにGitHubセクションに移動することで選択できます。
これは大きな挑戦ですが、幸運なことに、始める場所があります! ACL 2019で、この論文が公開されました。短編小説?エホバの証人コミュニティは、多くの多くの文書を翻訳していることが判明しましたが、それらのすべてが宗教的ではありません。そして、彼らの言語表現は多様です。
こちらのこのスプレッドシートをチェックして、言語が紹介されているかどうかを確認してから、OPUSにアクセスしてデータへのリンクを見つけてください:http://opus.nlpl.eu/jw300.php
また、OPUS: jw300_utils/get_jw300.pyからのJW300データの簡単なダウンロードとBPEプロセスのためのスクリプトも提供しています。 Opustools-PKG Pythonパッケージをインストールする必要があります。例:JW300のAcholi(ACH)とNyaneka(NYK)部分のダウロードと前処理については、このようなスクリプトに電話してください: python get_jw300.py ach nyk --output_dir jw300
その後、まだいくつかのオプションがあります!私たちのコミュニティは、広くて遠くを探しています! SlackとGoogleグループに参加して、今後の方法について話し合いましょう!
次のステップは、ColabノートブックでJW300データセットを使用して実行することです。ほとんどのアドバイスはノートブック自体にあります。私たちは常にそのノートブックを改善しており、あらゆる推奨事項に対して開かれています。行くのに苦労しましたか?それでは、使いやすいノートブックを構築するために協力しましょう! githubの問題を作成するか、メールでお問い合わせください!
すばらしい!あなたはあなたの最初のベースラインを作成しました。これで、コードとデータと結果をこのgithubリポジトリに入手する必要があります
結果提出公式を考慮するためには、いくつかのことが必要です。
コードを実行するノートブック。ノートブックは他の誰かのアカウントで実行する必要があり、使用するデータは公開可能である必要があります(つまり、ノートブックをダウンロードして実行する場合は機能する必要があります。これを行う方法を疑問に思っているなら、恐れないでください!私たちにラインを落としてください。私たちは協力して、提出がすべて良いことを確認します! :)
テストセット - これを複製し、結果に対してテストするには、保存されたテストセットを個別にアップロードする必要があります。
(a)使用されたデータを説明するreadme.md-ソースの組み合わせである場合(b)モデルの興味深い変更(c)最終モデルのいくつかの文の分析かもしれません
モデル自体。これは、GoogleドライブまたはDropboxリンクの形式にすることができます。私たちはすぐに訓練されたモデルの家を見つけます。移転学習、さらに訓練された、または展開するためにモデルを使用するには、次のことを提供する必要があります。
.ckptファイル)のあるチェックポイント、src_vocab.txt 、 trg_vocab.txt )、config.yaml )、結果 - 電車、開発、テストセットBLEスコア
分析手法をさらに拡大するので、モデルとテストセットのコピーがあることが非常に重要であるため、分析を行うためだけにトレーニングを再実行する必要はありません
上記のすべてができたら、リポジトリにプルリクエストを作成してください。こちらのガイドラインを参照してください。
また、これをあなたの貢献の構造の例として見てください
構造:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
例:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
関連するものがあるプルリクエストへのリンクがあります。
最初のプルリクエストに貢献することに緊張している、またはどのように進むかわからない?落胆しないでください!メールやスラックメッセージをドロップしてください。協力して船の形で貢献します!
いいね!したがって、結果を改善するには多くの方法があります。このドキュメントでは、これらのいくつかを強調しました。他のアイデアがありますか?ラインをドロップするか、PRを提出してください!
訓練されたモデルのどれも、生産の使用に適していないことを強調したいと思います。ここの私たちの論文では、JW300データセットでそのようなモデルをトレーニングすることのパフォーマンス効果を調査します。モデルは、非宗教的なドメインに一般化することができません。原則として、訓練されていないドメインにNLPモデルを展開しないでください。また、関連するドメインで訓練されていても、バイアスと潜在的な害を理解するために、モデルを詳細に分析する必要があります。これらのモデルは、より多くの研究を促進し、そのようなシステムの障害をよりよく理解するために進行中の作業として機能することを目指しています。
行動規範を参照してください
bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}