Masakhane est un effort de recherche pour la PNL pour les langues africaines qui est open source, à l'échelle du continent, distribué et en ligne. Ce référentiel GitHub abrite les données, le code, les résultats et la recherche pour créer des résultats de base de base de base ouverts pour les langues africaines.
Site Web: masakhane.io
Pour l'Afrique : construire et faciliter une communauté de chercheurs de la PNL, le connecter et la développer, stimuler et partager des recherches supplémentaires, créer des outils utiles pour des applications en gouvernement, en médecine, en science et en éducation, pour permettre la préservation linguistique et accroître sa visibilité et sa pertinence mondiales.
Pour la recherche sur la PNL : construire des ensembles de données et des outils pour faciliter la recherche sur la PNL sur les langues africaines et pour poser de nouveaux problèmes de recherche pour enrichir le paysage de recherche PNL.
Pour la communauté mondiale des chercheurs : découvrir les meilleures pratiques de recherche distribuée, à appliquer par d'autres communautés de recherche émergentes.
Il existe de nombreuses façons de contribuer à Masakhane .
Vous voulez plus de détails? Découvrez nos initiatives actuelles
Rejoignez notre Slack
Demande de rejoindre notre groupe Google
C'est ainsi que nous pouvons vous présenter sur notre page Web Masakhane.io. Veuillez envoyer un e-mail ce qui suit à [email protected]:
Veuillez être patient avec une réponse via notre adresse e-mail, nous sommes très en retard sur notre administration, au temps de Covid-19.
En règle générale, si vous avez une expérience de programmation, nous vous encourageons à commencer votre voyage avec Masakhane, en construisant une base de référence pour votre langue. Vous vous sentez nerveux à soumettre ou ne savez pas par où commencer? Veuillez vous joindre à notre réunion hebdomadaire et nous vous jumerons avec un mentor!
Nous avons un exemple de cahier Colab qui forme un modèle pour la traduction de l'anglais au zulu. Vous pouvez le sélectionner en accédant à la section GitHub lors de l'ouverture d'un nouveau projet.
C'est un énorme défi, mais heureusement, nous avons un point de départ! À ACL 2019, ce document a été publié. La nouvelle? Il s'avère que la communauté des témoins de Jéhovah a traduit de nombreux documents et tous ne sont pas religieux. Et leur représentation linguistique est diversifiée.
Consultez cette feuille de calcul ici pour voir si votre langue est présentée, puis accédez à Opus pour trouver les liens vers les données: http://opus.nlpl.eu/jw300.php
Nous fournissons également un script pour le téléchargement facile et le procédé BPE des données JW300 de l'OPU: jw300_utils/get_jw300.py . Il nécessite l'installation du package Python opusools-pkg. Exemple: pour le téléchargement et le prétraitement des parties Acholi (ACH) et les parties de Nyaneka (NYK) de JW300, appelez le script comme ceci: python get_jw300.py ach nyk --output_dir jw300
Ensuite, nous avons encore quelques options! Notre communauté a cherché largement et loin! Rejoignez notre groupe Slack et Google pour discuter d'une voie à suivre!
Votre prochaine étape consiste à utiliser l'ensemble de données JW300 dans le cahier Colab et à l'exécuter. La plupart des conseils sont dans le cahier lui-même. Nous améliorons constamment ce cahier et sommes ouverts à toutes les recommandations. Vous avez eu du mal à commencer? Ensuite, travaillons ensemble pour construire un cahier plus facile à utiliser! Créez un problème GitHub ou envoyez-nous un e-mail!
Incroyable! Vous avez créé votre première ligne de base. Nous devons maintenant obtenir le code et les données et les résultats dans ce référentiel GitHub
Pour que nous puissions considérer votre fonctionnaire de soumission de résultats, nous avons besoin de deux choses:
Le cahier qui exécutera le code. Le cahier doit fonctionner sur le compte de quelqu'un d'autre et les données qu'elle utilise doit être accessible en publication (c'est-à-dire que si je télécharge le cahier et l'exécute, cela doit fonctionner - il ne devrait donc pas utiliser de fichiers privés). Si vous vous demandez comment faire cela, n'ayez pas peur! Déposez-nous et nous travaillerons ensemble pour nous assurer que la soumission est bonne! :)
Les ensembles de test - Afin de reproduire cela et de tester sur vos résultats, nous avons besoin d'enregistrements de tests enregistrés séparément séparément.
Un Readme.md qui décrit (a) les données utilisées - ESP important s'il s'agit d'une combinaison de sources (b) de tout changement intéressant au modèle (c) peut-être une analyse de certaines phrases du modèle final
Le modèle lui-même. Cela peut prendre la forme d'un lien Google Drive ou Dropbox. Nous trouverons bientôt une maison pour nos modèles qualifiés. Pour que les modèles soient utilisés pour l'apprentissage du transfert, davantage formé ou déployé, vous devez fournir:
.ckpt ),src_vocab.txt , trg_vocab.txt ),config.yaml ),Les résultats - le score Bleu Train, Dev et Test
Nous allons étendre davantage nos techniques d'analyse, il est donc super important que nous ayons une copie du modèle et des ensembles de tests maintenant, nous n'avons donc pas besoin de relancer la formation juste pour faire l'analyse
Une fois que vous avez tout ce qui précède, veuillez créer une demande de traction dans le référentiel. Voir les directives ici.
Voir aussi cela comme un exemple de la structure de votre contribution
Structure:
/benchmarks
/<src-lang>-<tgt-lang>
/<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
- notebook.ipynb
- README.md
- test.src
- test.tgt
- results.txt
- src_vocab.txt
- trg_vocab.txt
- src.bpe
- [trg.bpe if the bpe model is not joint with src]
- config.yaml
- any other files, if you have any
Exemple:
/benchmarks
/en-xh
/xhnavy-data-baseline
- notebook.ipynb
- README.md
- test.xh
- test.en
- results.txt
- src_vocab.txt
- trg_vocab.txt
- en-xh.4000.bpe
- config.yaml
- preprocessing.py
Voici un lien vers une demande de traction qui a les choses pertinentes.
Se sentir nerveux à l'idée de contribuer à votre première demande de traction ou de ne pas savoir comment procéder? S'il vous plaît, ne vous sentez pas découragé! Envoyez-nous un e-mail ou un message Slack et nous travaillerons ensemble pour obtenir votre contribution en forme de navire!
Cool! Il existe donc de nombreuses façons d'améliorer les résultats. Nous en avons montré quelques-uns dans ce document. Vous avez d'autres idées? Déposez-nous une ligne ou soumettez un PR!
Nous aimerions souligner comment aucun des modèles formés ne convient à l'utilisation de la production . Dans notre article ici, nous explorons les effets de performance de la formation d'un tel modèle sur les ensembles de données JW300 - les modèles sont toujours incapables de généraliser à des domaines non religieux. En règle générale, il ne faut jamais déployer un modèle de PNL dans un domaine pour lequel il n'a pas été formé. Et même s'il est formé sur le domaine pertinent, un modèle doit être analysé en détail pour comprendre les biais et les dommages potentiels . Ces modèles visent à servir de travail en cours pour stimuler davantage de recherches et mieux comprendre l'échec de ces systèmes.
Voir code de conduite
Bibtex
@article{nekoto2020participatory,
title={Participatory research for low-resourced machine translation: A case study in african languages},
author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
journal={Findings of EMNLP},
year={2020}
}