masakhane mtダウンロード-Masakhane masakhane mtソースコードのダウンロード

masakhane mt

その他のソースコード

1.0.0

ダウンロード

マサハネ - アフリカ人によるアフリカ人向けのNLPプロジェクトの生きたコレクション

Masakhaneは、オープンソース、大陸全体、分散型、オンラインであるアフリカ言語のNLPの研究努力です。このGitHubリポジトリには、アフリカ言語のオープンベースラインNLP結果を構築するためのデータ、コード、結果、および調査があります。

ウェブサイト：Masakhane.io

目標

アフリカのために：NLP研究者のコミュニティを構築および促進し、それをつなぎ、成長させ、さらなる研究を促進し、共有し、政府、医学、科学、教育のアプリケーションの有用なツールを構築し、言語の保存を可能にし、世界的な視界と関連性を高めます。
NLP研究のために、アフリカ言語に関するNLP研究を促進するためのデータセットとツールを構築し、NLPの研究環境を豊かにするための新しい研究問題を提起すること。
グローバルな研究者コミュニティのために：分散研究のためのベストプラクティスを発見するために、他の新興研究コミュニティによって適用される。

貢献者のための殿堂

進捗

EMNLP 2020の調査結果で公開されるプリプリントをご覧ください
提出された機械翻訳ベンチマークをこちらをご覧ください！あなたの言語が見えませんか？ベンチマークを提出してください！
Africanlp Workshop @ ICLR 2020で公開される論文をチェックしてください
ここで参加者が書いた論文をご覧ください
現在のイニシアチブについての詳細を見つけてください
コミュニティ文書のリストを見てください
毎週の会議メモを読んでください
Mediumでの出版物に従ってください

どうすれば貢献できますか？

マサハネに貢献する方法はたくさんあります。

モデルをトレーニングする- あなたの言語に訓練されたモデルと関連するコードを提供する
分析- アフリカ言語のデータ/モデルの分析を貢献します。これには技術的な経験は必要ありません！あなたが言語学者なら、私たちはあなたを機械翻訳開業医と組み合わせることができ、あなたは分析を貢献するのを助けることができます
データ- あなたの言語のデータセットを構築または見つけるのに役立ちます
ドキュメント- 議論、進捗状況を文書化するのに役立ちます。これは非常に必要です。または、他の人の体験を改善するベース「ノートブック」のドキュメントに貢献する
メンターシップ- 言語とデータセットのアドバイスまたはヘルプモデルを調整するか、人々が始めるのを支援する
管理者- 非常に多くの研究者と協力することは非常に挑戦的です！管理タスクを手伝ってください
計算- インフラストラクチャを手伝って計算してください！寄付するための予備の計算はありますか？教えてください！私たちは常にもっと探しています！
ブレインストーミング私たちの毎週の会議に参加し、アドバイスやアイデアを提供します
ストーリーテリング- コミュニティについての講演、中程度の出版物への貢献、またはメディアアウトレットとの関わりによって、私たちのストーリーを世界に伝えます
MLOPS＆MLエンジニアリング- 機械学習のMLOPS側を掘り下げて楽しんでいますか？あなたはあなたのMLエンジニアの能力を磨きたいと思っているソフトウェア開発者ですか？再現性、データ収集、モデル共有をサポートするためのツールの構築を支援してください！

詳細が必要ですか？現在のイニシアチブをご覧ください

参加するにはどうすればよいですか？

スラックに参加してください
Googleグループに参加するリクエスト
これは、私たちのWebページMasakhane.ioであなたを紹介できるようにです。以下を[email protected]にメールしてください：
- あなたのフルネーム
- 好ましいソーシャルメディアリンク
- あなたが取り組んでいる言語（またはあなたの一般的な専門分野 - あなたが機械翻訳の専門家であり、それを通してコミュニティを後押ししたい場合）
- 写真
- あなたの所属と役割。

私たちの電子メールアドレスを介して応答を我慢してください。私たちは、Covid-19の時代に、私たちの管理に非常に遅れています。

最初の機械翻訳モデルを構築します

通常、プログラミングの経験がある場合は、言語のベースラインを構築することで、マサハネとの旅を始めることをお勧めします。提出するのに緊張していると感じたり、どこから始めればよいのかわからない？毎週の会議に参加してください。メンターとペアリングします。

1.サンプルコードをご覧ください

英語からzulまでの翻訳のモデルを訓練するコラブノートブックの例があります。新しいプロジェクトを開くときにGitHubセクションに移動することで選択できます。

2。私の言語のデータを見つける？！

これは大きな挑戦ですが、幸運なことに、始める場所があります！ ACL 2019で、この論文が公開されました。短編小説？エホバの証人コミュニティは、多くの多くの文書を翻訳していることが判明しましたが、それらのすべてが宗教的ではありません。そして、彼らの言語表現は多様です。

こちらのこのスプレッドシートをチェックして、言語が紹介されているかどうかを確認してから、OPUSにアクセスしてデータへのリンクを見つけてください：http：//opus.nlpl.eu/jw300.php

また、OPUS： jw300_utils/get_jw300.pyからのJW300データの簡単なダウンロードとBPEプロセスのためのスクリプトも提供しています。 Opustools-PKG Pythonパッケージをインストールする必要があります。例：JW300のAcholi（ACH）とNyaneka（NYK）部分のダウロードと前処理については、このようなスクリプトに電話してください： python get_jw300.py ach nyk --output_dir jw300

JW300データセットにあなたの言語が見つかりませんか？

その後、まだいくつかのオプションがあります！私たちのコミュニティは、広くて遠くを探しています！ SlackとGoogleグループに参加して、今後の方法について話し合いましょう！

3。ノートブックを実行してください！

次のステップは、ColabノートブックでJW300データセットを使用して実行することです。ほとんどのアドバイスはノートブック自体にあります。私たちは常にそのノートブックを改善しており、あらゆる推奨事項に対して開かれています。行くのに苦労しましたか？それでは、使いやすいノートブックを構築するために協力しましょう！ githubの問題を作成するか、メールでお問い合わせください！

4。それは完了です！結果があります！今何？

すばらしい！あなたはあなたの最初のベースラインを作成しました。これで、コードとデータと結果をこのgithubリポジトリに入手する必要があります

結果提出公式を考慮するためには、いくつかのことが必要です。

コードを実行するノートブック。ノートブックは他の誰かのアカウントで実行する必要があり、使用するデータは公開可能である必要があります（つまり、ノートブックをダウンロードして実行する場合は機能する必要があります。これを行う方法を疑問に思っているなら、恐れないでください！私たちにラインを落としてください。私たちは協力して、提出がすべて良いことを確認します！ :)
テストセット - これを複製し、結果に対してテストするには、保存されたテストセットを個別にアップロードする必要があります。
（a）使用されたデータを説明するreadme.md-ソースの組み合わせである場合（b）モデルの興味深い変更（c）最終モデルのいくつかの文の分析かもしれません
モデル自体。これは、GoogleドライブまたはDropboxリンクの形式にすることができます。私たちはすぐに訓練されたモデルの家を見つけます。移転学習、さらに訓練された、または展開するためにモデルを使用するには、次のことを提供する必要があります。
1. パラメーター（ .ckptファイル）のあるチェックポイント、
2. ソースとターゲットの語彙（ src_vocab.txt 、 trg_vocab.txt ）、
3. 構成ファイル（ config.yaml ）、
4. 該当する場合：前処理パイプラインのBPEコードまたはスクリプト。 Joey NMTは、モデルディレクトリの最初の3つを保存します。
結果 - 電車、開発、テストセットBLEスコア

分析手法をさらに拡大するので、モデルとテストセットのコピーがあることが非常に重要であるため、分析を行うためだけにトレーニングを再実行する必要はありません

上記のすべてができたら、リポジトリにプルリクエストを作成してください。こちらのガイドラインを参照してください。

私のPRの構造：

また、これをあなたの貢献の構造の例として見てください

構造：

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

例：

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

関連するものがあるプルリクエストへのリンクがあります。

最初のプルリクエストに貢献することに緊張している、またはどのように進むかわからない？落胆しないでください！メールやスラックメッセージをドロップしてください。協力して船の形で貢献します！

5。ベースラインがあります。それを改善するために私は何をしますか？

いいね！したがって、結果を改善するには多くの方法があります。このドキュメントでは、これらのいくつかを強調しました。他のアイデアがありますか？ラインをドロップするか、PRを提出してください！

モデルの展開に関するメモ

訓練されたモデルのどれも、生産の使用に適していないことを強調したいと思います。ここの私たちの論文では、JW300データセットでそのようなモデルをトレーニングすることのパフォーマンス効果を調査します。モデルは、非宗教的なドメインに一般化することができません。原則として、訓練されていないドメインにNLPモデルを展開しないでください。また、関連するドメインで訓練されていても、バイアスと潜在的な害を理解するために、モデルを詳細に分析する必要があります。これらのモデルは、より多くの研究を促進し、そのようなシステムの障害をよりよく理解するために進行中の作業として機能することを目指しています。

行動規範

行動規範を参照してください

参照

bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-16
サイズ 214.25MB
から Github

masakhane mt

マサハネ - アフリカ人によるアフリカ人向けのNLPプロジェクトの生きたコレクション

目標

貢献者のための殿堂

進捗

どうすれば貢献できますか？

参加するにはどうすればよいですか？

最初の機械翻訳モデルを構築します

1.サンプルコードをご覧ください

2。私の言語のデータを見つける？！

JW300データセットにあなたの言語が見つかりませんか？

3。ノートブックを実行してください！

4。それは完了です！結果があります！今何？

私のPRの構造：

5。ベースラインがあります。それを改善するために私は何をしますか？

モデルの展開に関するメモ

行動規範

参照

mtマネージャーベータ版

MTワールド

Meituan MT自転車アプリ

MTフォトAndroid版

MTが戻る

MT 画像泥棒

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express