Masakhane ist eine Forschungsanstrengung für NLP für afrikanische Sprachen, die Open Source, Continentwide, Distributed und Online sind. In diesem GitHub -Repository befindet sich Daten, Code, Ergebnisse und Forschung zum Aufbau offener Basis -NLP -Ergebnisse für afrikanische Sprachen.
Website: Masakhane.io
Für Afrika : Um eine Gemeinschaft von NLP -Forschern aufzubauen und zu erleichtern, verbinden und auszubauen, weitere Forschungsergebnisse zu erzielen und zu teilen, hilfreiche Instrumente für Anwendungen in der Regierung, Medizin, Wissenschaft und Bildung zu erstellen, um die Erhaltung der Sprache zu ermöglichen und ihre globale Sichtbarkeit und Relevanz zu erhöhen.
Für die NLP -Forschung : Erstellung von Datensätzen und Tools zur Erleichterung der NLP -Forschung zu afrikanischen Sprachen und zur Anpassung neuer Forschungsprobleme, um die NLP -Forschungslandschaft zu bereichern.
Für die globale Forschergemeinschaft : Best Practices für verteilte Forschungsergebnisse zu entdecken, die von anderen aufstrebenden Forschungsgemeinschaften angewendet werden.
Es gibt viele Möglichkeiten, um zu Masakhane beizutragen.
Willst du mehr Details? Schauen Sie sich unsere aktuellen Initiativen an
Schließe dich unserer Lücke an
Anfrage, sich unserer Google -Gruppe anzuschließen
Dies ist so, dass wir Sie auf unserer Webseite Masakhane.io vorstellen können. Bitte senden Sie eine E -Mail an [email protected]:
Bitte seien Sie über unsere E-Mail-Adresse geduldig mit einer Antwort. In der Zeit von Covid-19 sind wir in unserer Verwaltung sehr zurück.
Wenn Sie über ein Programmerlebnis verfügen, empfehlen wir Ihnen normalerweise, Ihre Reise mit Masakhane zu beginnen, indem wir eine Grundlinie für Ihre Sprache aufbauen. Fühlen Sie sich nervös, sich zu unterwerfen oder nicht, wo Sie anfangen sollen? Bitte nehmen Sie an unserem wöchentlichen Treffen teil und wir werden Sie mit einem Mentor kombinieren!
Wir haben ein Beispiel Colab Notebook, das ein Modell für die Übersetzung von Englisch zu Zulu trainiert. Sie können es auswählen, indem Sie beim Öffnen eines neuen Projekts zum GitHub -Bereich gehen.
Dies ist eine große Herausforderung, aber zum Glück haben wir einen Ort, an dem wir anfangen können! Bei ACL 2019 wurde dieses Papier veröffentlicht. Die Kurzgeschichte? Es stellt sich heraus, dass die Zeugengemeinschaft Jehovas viele viele Dokumente übersetzt hat und nicht alle religiös sind. Und ihre Sprachrepräsentation ist vielfältig.
Schauen Sie sich diese Tabelle hier an, um festzustellen, ob Ihre Sprache angezeigt wird, und finden Sie dann zu OPUS, um die Links zu den Daten zu finden
Wir bieten auch ein Skript für das einfache Herunterladen und BPE-Präzessieren von JW300-Daten von OPUS: jw300_utils/get_jw300.py . Es erfordert die Installation des Opustools-PKG Python-Pakets. Beispiel: Für Teile python get_jw300.py ach nyk --output_dir jw300 Acholi (Ach) und Nyaneka (NYK) von JW300 rufen Sie das Skript wie folgt an:
Dann haben wir noch einige Optionen! Unsere Community hat weit und weit gesucht! Treten Sie unserer Slack- und Google -Gruppe bei, um einen Weg nach vorne zu besprechen!
Ihr nächster Schritt ist die Verwendung des JW300 -Datensatzes im Colab -Notizbuch und ausführen. Die meisten Ratschläge sind im Notizbuch selbst. Wir verbessern dieses Notebook ständig und sind offen für Empfehlungen. Schwierigkeiten haben, in Gang zu gehen? Dann arbeiten wir zusammen, um ein Notizbuch zu erstellen, das einfacher zu bedienen ist! Erstellen Sie ein GitHub -Problem oder senden Sie uns eine E -Mail!
Toll! Sie sind Ihre erste Grundlinie erstellt. Jetzt müssen wir den Code und die Daten und die Ergebnisse in dieses GitHub -Repository einbeziehen
Damit wir Ihr Ergebnisbeamter in Betracht ziehen können, brauchen wir ein paar Dinge:
Das Notizbuch, das den Code ausführt. Das Notizbuch muss auf einem anderen Konto ausgeführt werden, und die von es verwendeten Daten sollten öffentlich zugänglich sein (dh wenn ich das Notizbuch herunterlade und es ausführe, muss es funktionieren - daher sollte keine privaten Dateien verwendet werden). Wenn Sie sich fragen, wie Sie das machen sollen, fürchten Sie sich nicht! Schreiben Sie uns eine Linie und wir werden zusammenarbeiten, um sicherzustellen, dass die Einreichung alles gut ist! :)
Die Testsätze - Um dies zu replizieren und anhand Ihrer Ergebnisse zu testen, müssen gespeicherte Test -Sets separat hochgeladen werden.
Eine Readme.md, die die (a) verwendeten Daten beschreibt - insbesondere wenn es sich um eine Kombination aus Quellen (b) handelt
Das Modell selbst. Dies kann in Form eines Google Drive oder Dropbox -Links erfolgen. Wir werden bald ein Zuhause für unsere geschulten Modelle finden. Damit Modelle zum Übertragungslernen, weiter geschult oder bereitgestellt werden können, müssen Sie:
.ckpt -Datei),src_vocab.txt , trg_vocab.txt ),config.yaml ),Die Ergebnisse - der Zug-, Dev- und Test -Set -BLEU -Score
Wir werden unsere Analysetechniken weiter erweitern, daher ist es sehr wichtig, dass wir jetzt eine Kopie des Modells und Testsätze haben
Sobald Sie alle oben genannten haben, erstellen Sie bitte eine Pull -Anfrage im Repository. Siehe Richtlinien hier.
Sehen Sie dies auch als Beispiel für die Struktur Ihres Beitrags an
Struktur:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
Beispiel:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
Hier ist ein Link zu einer Pull -Anfrage, die die relevanten Dinge enthält.
Fühlen Sie sich nervös, wenn Sie Ihre erste Pull -Anfrage beitragen oder sich nicht sicher sind, wie Sie vorgehen sollen? Bitte fühlen Sie sich nicht entmutigt! Schreiben Sie uns eine E -Mail oder eine Slack -Nachricht und wir werden zusammenarbeiten, um Ihren Beitrag in Schiffsform zu erhalten!
Cool! Es gibt also viele Möglichkeiten, die Ergebnisse zu verbessern. Wir haben einige davon in diesem Dokument erhöht. Hast du andere Ideen? Schreiben Sie uns eine Linie oder reichen Sie eine PR ein!
Wir möchten hervorheben, wie keiner der ausgebildeten Modelle für den Produktionsnutzung geeignet sind . In unserem Artikel hier untersuchen wir die Leistungseffekte des Trainings eines solchen Modells auf den JW300 -Datensätzen - die Modelle können immer noch nicht auf nicht -religiöse Bereiche verallgemeinern. In der Regel sollte man niemals ein NLP -Modell in einer Domäne einsetzen, für die es nicht geschult wurde. Und selbst wenn es auf der relevanten Domäne trainiert wird, sollte ein Modell ausführlich analysiert werden, um die Verzerrungen und potenziellen Schäden zu verstehen . Diese Modelle zielen darauf ab, als Arbeit zu dienen, um mehr Forschung zu fördern und das Versagen solcher Systeme besser zu verstehen.
Siehe Verhaltenskodex
Bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}