masakhane mt Download - masakhane mt Quellcode Download

masakhane mt

Anderer Quellcode

1.0.0

Herunterladen

MASAKHANE - Eine lebendige Sammlung von NLP -Projekten für Afrikaner von Afrikanern

Masakhane ist eine Forschungsanstrengung für NLP für afrikanische Sprachen, die Open Source, Continentwide, Distributed und Online sind. In diesem GitHub -Repository befindet sich Daten, Code, Ergebnisse und Forschung zum Aufbau offener Basis -NLP -Ergebnisse für afrikanische Sprachen.

Website: Masakhane.io

Ziele

Für Afrika : Um eine Gemeinschaft von NLP -Forschern aufzubauen und zu erleichtern, verbinden und auszubauen, weitere Forschungsergebnisse zu erzielen und zu teilen, hilfreiche Instrumente für Anwendungen in der Regierung, Medizin, Wissenschaft und Bildung zu erstellen, um die Erhaltung der Sprache zu ermöglichen und ihre globale Sichtbarkeit und Relevanz zu erhöhen.
Für die NLP -Forschung : Erstellung von Datensätzen und Tools zur Erleichterung der NLP -Forschung zu afrikanischen Sprachen und zur Anpassung neuer Forschungsprobleme, um die NLP -Forschungslandschaft zu bereichern.
Für die globale Forschergemeinschaft : Best Practices für verteilte Forschungsergebnisse zu entdecken, die von anderen aufstrebenden Forschungsgemeinschaften angewendet werden.

Hall of Fame für unsere Mitwirkenden

Fortschritt

Sehen Sie sich hier in unserem Pre-Print an
Sehen Sie sich hier unsere eingereichten maschinellen Übersetzungsbenchmarks an! Kannst du deine Sprache nicht sehen? Bitte senden Sie einen Benchmark!
Schauen Sie sich unser Papier an, das im AfricanLP Workshop @ ICLR 2020 veröffentlicht wird
Schauen Sie sich die von unseren Teilnehmern hier geschriebenen Papiere an
Finden Sie mehr über unsere aktuellen Initiativen
Schauen Sie sich unsere Liste der Community -Dokumente an
Lesen Sie unsere wöchentlichen Meeting -Notizen
Folgen Sie unserer Veröffentlichung zu Medium

Wie kann ich dazu beitragen?

Es gibt viele Möglichkeiten, um zu Masakhane beizutragen.

Trainieren Sie ein Modell - Stützen Sie ein geschulter Modell und einen verwandten Code für Ihre Sprache bei
Analyse - Startanalyse von Daten/Modellen für alle afrikanischen Sprachen. Dafür brauchen Sie keine technischen Erfahrungen! Wenn Sie ein Sprachwissenschaftler sind, können wir Sie mit einem maschinellen Übersetzungspraktiker kombinieren und Sie können dazu beitragen, die Analyse beizutragen
Daten - Helfen Sie, Datensätze für Ihre Sprache zu erstellen oder zu finden
Dokumentation - Helfen Sie, unsere Diskussionen zu dokumentieren, Fortschritte. Das ist sehr benötigt. Oder zur Dokumentation des Basis -Notizbuchs beitragen, das die Erfahrung anderer verbessern wird
Mentoring - Beratung oder helfen Sie, Modelle für ihre Sprachen und Datensätze zu stimmen, oder helfen Sie den Menschen, loszulegen
Admin - Die Zusammenarbeit mit so vielen Forschern kann eine ziemliche Herausforderung sein! Helfen Sie mit Verwaltungsaufgaben
Berechnen - Hilfe bei Infrastruktur und Berechnung! Haben Sie Ersatzberechnung zum Spenden? Lass es uns wissen! Wir sind immer auf der Suche nach mehr!
Brainstorming treten Sie unseren wöchentlichen Treffen bei, geben Sie Rat oder Ideen,
Geschichtenerzählen - Erzählen Sie unsere Geschichten der Welt, indem Sie Gespräche über die Community führen, zu unserer mittleren Veröffentlichung beitragen oder sich mit Medien befassen
MLOPS & ML ENGINEERING - Genießen Sie es, sich mit der MLOPS -Seite des maschinellen Lernens zu befassen? Sind Sie ein Softwareentwickler, der Ihre ML-Engineer-Fähigkeiten einverstanden ist? Nehmen Sie mit uns, um Tools zu erstellen, um die Reproduzierbarkeit, Datenerfassung und Modellfreigabe zu unterstützen!

Willst du mehr Details? Schauen Sie sich unsere aktuellen Initiativen an

Wie biete ich mit?

Schließe dich unserer Lücke an
Anfrage, sich unserer Google -Gruppe anzuschließen
Dies ist so, dass wir Sie auf unserer Webseite Masakhane.io vorstellen können. Bitte senden Sie eine E -Mail an [email protected]:
- Ihr vollständiger Name
- Ein bevorzugter Social -Media -Link
- An der Sprache, an der Sie arbeiten (oder Ihre allgemein relevante Spezialität -, wenn Sie ein Experte für maschinelle Übersetzung sind und - möchten die Community dadurch erhöhen)
- Ein Bild
- Ihre Zugehörigkeit und Rolle.

Bitte seien Sie über unsere E-Mail-Adresse geduldig mit einer Antwort. In der Zeit von Covid-19 sind wir in unserer Verwaltung sehr zurück.

Erstellen Sie Ihr erstes maschinelles Übersetzungsmodell

Wenn Sie über ein Programmerlebnis verfügen, empfehlen wir Ihnen normalerweise, Ihre Reise mit Masakhane zu beginnen, indem wir eine Grundlinie für Ihre Sprache aufbauen. Fühlen Sie sich nervös, sich zu unterwerfen oder nicht, wo Sie anfangen sollen? Bitte nehmen Sie an unserem wöchentlichen Treffen teil und wir werden Sie mit einem Mentor kombinieren!

1. Schauen Sie sich den Beispielcode an

Wir haben ein Beispiel Colab Notebook, das ein Modell für die Übersetzung von Englisch zu Zulu trainiert. Sie können es auswählen, indem Sie beim Öffnen eines neuen Projekts zum GitHub -Bereich gehen.

2. Daten für meine Sprache finden?!

Dies ist eine große Herausforderung, aber zum Glück haben wir einen Ort, an dem wir anfangen können! Bei ACL 2019 wurde dieses Papier veröffentlicht. Die Kurzgeschichte? Es stellt sich heraus, dass die Zeugengemeinschaft Jehovas viele viele Dokumente übersetzt hat und nicht alle religiös sind. Und ihre Sprachrepräsentation ist vielfältig.

Schauen Sie sich diese Tabelle hier an, um festzustellen, ob Ihre Sprache angezeigt wird, und finden Sie dann zu OPUS, um die Links zu den Daten zu finden

Wir bieten auch ein Skript für das einfache Herunterladen und BPE-Präzessieren von JW300-Daten von OPUS: jw300_utils/get_jw300.py . Es erfordert die Installation des Opustools-PKG Python-Pakets. Beispiel: Für Teile python get_jw300.py ach nyk --output_dir jw300 Acholi (Ach) und Nyaneka (NYK) von JW300 rufen Sie das Skript wie folgt an:

Sie können Ihre Sprache im Dataset JW300 nicht finden?

Dann haben wir noch einige Optionen! Unsere Community hat weit und weit gesucht! Treten Sie unserer Slack- und Google -Gruppe bei, um einen Weg nach vorne zu besprechen!

3. Führen Sie das Notizbuch aus!

Ihr nächster Schritt ist die Verwendung des JW300 -Datensatzes im Colab -Notizbuch und ausführen. Die meisten Ratschläge sind im Notizbuch selbst. Wir verbessern dieses Notebook ständig und sind offen für Empfehlungen. Schwierigkeiten haben, in Gang zu gehen? Dann arbeiten wir zusammen, um ein Notizbuch zu erstellen, das einfacher zu bedienen ist! Erstellen Sie ein GitHub -Problem oder senden Sie uns eine E -Mail!

4. Es ist fertig! Ich habe Ergebnisse! Was nun?

Toll! Sie sind Ihre erste Grundlinie erstellt. Jetzt müssen wir den Code und die Daten und die Ergebnisse in dieses GitHub -Repository einbeziehen

Damit wir Ihr Ergebnisbeamter in Betracht ziehen können, brauchen wir ein paar Dinge:

Das Notizbuch, das den Code ausführt. Das Notizbuch muss auf einem anderen Konto ausgeführt werden, und die von es verwendeten Daten sollten öffentlich zugänglich sein (dh wenn ich das Notizbuch herunterlade und es ausführe, muss es funktionieren - daher sollte keine privaten Dateien verwendet werden). Wenn Sie sich fragen, wie Sie das machen sollen, fürchten Sie sich nicht! Schreiben Sie uns eine Linie und wir werden zusammenarbeiten, um sicherzustellen, dass die Einreichung alles gut ist! :)
Die Testsätze - Um dies zu replizieren und anhand Ihrer Ergebnisse zu testen, müssen gespeicherte Test -Sets separat hochgeladen werden.
Eine Readme.md, die die (a) verwendeten Daten beschreibt - insbesondere wenn es sich um eine Kombination aus Quellen (b) handelt
Das Modell selbst. Dies kann in Form eines Google Drive oder Dropbox -Links erfolgen. Wir werden bald ein Zuhause für unsere geschulten Modelle finden. Damit Modelle zum Übertragungslernen, weiter geschult oder bereitgestellt werden können, müssen Sie:
1. Ein Kontrollpunkt mit den Parametern ( .ckpt -Datei),
2. Das Quell- und Zielvokabular ( src_vocab.txt , trg_vocab.txt ),
3. Die Konfigurationsdatei ( config.yaml ),
4. und gegebenenfalls zutreffend: Die BPE-Codes oder Skripte für Ihre Vorverarbeitungspipeline. Joey NMT rettet die ersten drei im Modellverzeichnis.
Die Ergebnisse - der Zug-, Dev- und Test -Set -BLEU -Score

Wir werden unsere Analysetechniken weiter erweitern, daher ist es sehr wichtig, dass wir jetzt eine Kopie des Modells und Testsätze haben

Sobald Sie alle oben genannten haben, erstellen Sie bitte eine Pull -Anfrage im Repository. Siehe Richtlinien hier.

Struktur meines PR:

Sehen Sie dies auch als Beispiel für die Struktur Ihres Beitrags an

Struktur:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

Beispiel:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

Hier ist ein Link zu einer Pull -Anfrage, die die relevanten Dinge enthält.

Fühlen Sie sich nervös, wenn Sie Ihre erste Pull -Anfrage beitragen oder sich nicht sicher sind, wie Sie vorgehen sollen? Bitte fühlen Sie sich nicht entmutigt! Schreiben Sie uns eine E -Mail oder eine Slack -Nachricht und wir werden zusammenarbeiten, um Ihren Beitrag in Schiffsform zu erhalten!

5. Ich habe eine Grundlinie. Was mache ich, um es zu verbessern?

Cool! Es gibt also viele Möglichkeiten, die Ergebnisse zu verbessern. Wir haben einige davon in diesem Dokument erhöht. Hast du andere Ideen? Schreiben Sie uns eine Linie oder reichen Sie eine PR ein!

Anmerkungen zur Modellbereitstellung

Wir möchten hervorheben, wie keiner der ausgebildeten Modelle für den Produktionsnutzung geeignet sind . In unserem Artikel hier untersuchen wir die Leistungseffekte des Trainings eines solchen Modells auf den JW300 -Datensätzen - die Modelle können immer noch nicht auf nicht -religiöse Bereiche verallgemeinern. In der Regel sollte man niemals ein NLP -Modell in einer Domäne einsetzen, für die es nicht geschult wurde. Und selbst wenn es auf der relevanten Domäne trainiert wird, sollte ein Modell ausführlich analysiert werden, um die Verzerrungen und potenziellen Schäden zu verstehen . Diese Modelle zielen darauf ab, als Arbeit zu dienen, um mehr Forschung zu fördern und das Versagen solcher Systeme besser zu verstehen.

Verhaltenskodex

Siehe Verhaltenskodex

Referenz

Bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

Expandieren

Zusätzliche Informationen