masakhane mt Download - masakhane mt Source Code Download

masakhane mt

Autre code source

1.0.0

Télécharger

Masakhane - Une collection vivante de projets PNL pour les Africains, par les Africains

Masakhane est un effort de recherche pour la PNL pour les langues africaines qui est open source, à l'échelle du continent, distribué et en ligne. Ce référentiel GitHub abrite les données, le code, les résultats et la recherche pour créer des résultats de base de base de base ouverts pour les langues africaines.

Site Web: masakhane.io

Objectifs

Pour l'Afrique : construire et faciliter une communauté de chercheurs de la PNL, le connecter et la développer, stimuler et partager des recherches supplémentaires, créer des outils utiles pour des applications en gouvernement, en médecine, en science et en éducation, pour permettre la préservation linguistique et accroître sa visibilité et sa pertinence mondiales.
Pour la recherche sur la PNL : construire des ensembles de données et des outils pour faciliter la recherche sur la PNL sur les langues africaines et pour poser de nouveaux problèmes de recherche pour enrichir le paysage de recherche PNL.
Pour la communauté mondiale des chercheurs : découvrir les meilleures pratiques de recherche distribuée, à appliquer par d'autres communautés de recherche émergentes.

Temple de la renommée pour nos contributeurs

Progrès

Voir notre pré-impression qui sera publié lors des résultats de l'EMNLP 2020 ici
Regardez nos références de traduction automatique soumises ici! Vous ne voyez pas votre langue? Veuillez soumettre une référence!
Consultez notre article pour être publié sur AfricanLP Workshop @ ICLR 2020
Consultez les articles écrits par nos participants ici
Trouvez notre plus sur nos initiatives actuelles
Regardez notre liste de documents communautaires
Lisez nos notes de réunion hebdomadaires
Suivez notre publication sur Medium

Comment puis-je contribuer?

Il existe de nombreuses façons de contribuer à Masakhane .

Former un modèle - contribuer un modèle formé et un code connexe pour votre langue
Analyse - Contribuer l'analyse des données / modèles pour toutes les langues africaines. Vous n'avez besoin d'aucune expérience technique pour cela! Si vous êtes linguiste, nous pouvons vous jumeler avec un praticien de la traduction automatique et vous pouvez aider à contribuer l'analyse
Données - Aidez à créer ou à trouver des ensembles de données pour votre langue
Documentation - Aidez à documenter nos discussions, nos progrès. C'est très nécessaire. Ou contribuer à la documentation du "cahier" de base qui améliorera l'expérience des autres
Mentorat - Fournir des conseils ou aider à régler les modèles pour leurs langues et ensembles de données, ou aider les gens à démarrer
Admin - Travailler avec autant de chercheurs peut être un défi! Aider avec les tâches administratives
Calculer - Aidez avec les infrastructures et calculer! Avez-vous un calcul de rechange pour faire un don? Faites-le nous savoir! Nous recherchons toujours plus!
Brainstorm Rejoignez nos réunions hebdomadaires, fournissez des conseils ou des idées
Hartion de narration - Racontez nos histoires au monde en discutant de la communauté, en contribuant à notre publication moyenne ou en s'engageant avec les médias
MOLPS & ML Engineering - Aimez-vous vous plonger dans le côté Mlops de l'apprentissage automatique? Êtes-vous un développeur de logiciels qui cherche à affiner vos capacités d'ingénieur ML? Rejoignez-nous pour aider à créer des outils pour soutenir la reproductibilité, la collecte de données et le partage de modèles!

Vous voulez plus de détails? Découvrez nos initiatives actuelles

Comment rejoindre?

Rejoignez notre Slack
Demande de rejoindre notre groupe Google
C'est ainsi que nous pouvons vous présenter sur notre page Web Masakhane.io. Veuillez envoyer un e-mail ce qui suit à [email protected]:
- Votre nom complet
- Un lien de médias sociaux préférés
- La (s) langue (s) sur laquelle vous travaillerez (ou votre spécialité pertinente générale - si vous êtes un expert en traduction automatique et - vous souhaiteriez stimuler la communauté à travers cela)
- Une image
- Votre affiliation et votre rôle.

Veuillez être patient avec une réponse via notre adresse e-mail, nous sommes très en retard sur notre administration, au temps de Covid-19.

Construire votre premier modèle de traduction automatique

En règle générale, si vous avez une expérience de programmation, nous vous encourageons à commencer votre voyage avec Masakhane, en construisant une base de référence pour votre langue. Vous vous sentez nerveux à soumettre ou ne savez pas par où commencer? Veuillez vous joindre à notre réunion hebdomadaire et nous vous jumerons avec un mentor!

1. Jetez un œil à l'exemple de code

Nous avons un exemple de cahier Colab qui forme un modèle pour la traduction de l'anglais au zulu. Vous pouvez le sélectionner en accédant à la section GitHub lors de l'ouverture d'un nouveau projet.

2. Trouver des données pour ma langue ?!

C'est un énorme défi, mais heureusement, nous avons un point de départ! À ACL 2019, ce document a été publié. La nouvelle? Il s'avère que la communauté des témoins de Jéhovah a traduit de nombreux documents et tous ne sont pas religieux. Et leur représentation linguistique est diversifiée.

Consultez cette feuille de calcul ici pour voir si votre langue est présentée, puis accédez à Opus pour trouver les liens vers les données: http://opus.nlpl.eu/jw300.php

Nous fournissons également un script pour le téléchargement facile et le procédé BPE des données JW300 de l'OPU: jw300_utils/get_jw300.py . Il nécessite l'installation du package Python opusools-pkg. Exemple: pour le téléchargement et le prétraitement des parties Acholi (ACH) et les parties de Nyaneka (NYK) de JW300, appelez le script comme ceci: python get_jw300.py ach nyk --output_dir jw300

Vous ne trouvez pas votre langue dans l'ensemble de données JW300?

Ensuite, nous avons encore quelques options! Notre communauté a cherché largement et loin! Rejoignez notre groupe Slack et Google pour discuter d'une voie à suivre!

3. Exécutez le cahier!

Votre prochaine étape consiste à utiliser l'ensemble de données JW300 dans le cahier Colab et à l'exécuter. La plupart des conseils sont dans le cahier lui-même. Nous améliorons constamment ce cahier et sommes ouverts à toutes les recommandations. Vous avez eu du mal à commencer? Ensuite, travaillons ensemble pour construire un cahier plus facile à utiliser! Créez un problème GitHub ou envoyez-nous un e-mail!

4. C'est fait! J'ai des résultats! Maintenant quoi?

Incroyable! Vous avez créé votre première ligne de base. Nous devons maintenant obtenir le code et les données et les résultats dans ce référentiel GitHub

Pour que nous puissions considérer votre fonctionnaire de soumission de résultats, nous avons besoin de deux choses:

Le cahier qui exécutera le code. Le cahier doit fonctionner sur le compte de quelqu'un d'autre et les données qu'elle utilise doit être accessible en publication (c'est-à-dire que si je télécharge le cahier et l'exécute, cela doit fonctionner - il ne devrait donc pas utiliser de fichiers privés). Si vous vous demandez comment faire cela, n'ayez pas peur! Déposez-nous et nous travaillerons ensemble pour nous assurer que la soumission est bonne! :)
Les ensembles de test - Afin de reproduire cela et de tester sur vos résultats, nous avons besoin d'enregistrements de tests enregistrés séparément séparément.
Un Readme.md qui décrit (a) les données utilisées - ESP important s'il s'agit d'une combinaison de sources (b) de tout changement intéressant au modèle (c) peut-être une analyse de certaines phrases du modèle final
Le modèle lui-même. Cela peut prendre la forme d'un lien Google Drive ou Dropbox. Nous trouverons bientôt une maison pour nos modèles qualifiés. Pour que les modèles soient utilisés pour l'apprentissage du transfert, davantage formé ou déployé, vous devez fournir:
1. un point de contrôle avec les paramètres (fichier .ckpt ),
2. Le vocabulaire source et cible ( src_vocab.txt , trg_vocab.txt ),
3. le fichier de configuration ( config.yaml ),
4. Et le cas échéant: les codes ou scripts BPE pour votre pipeline de prétraitement. Joey NMT enregistre les trois premiers du répertoire modèle.
Les résultats - le score Bleu Train, Dev et Test

Nous allons étendre davantage nos techniques d'analyse, il est donc super important que nous ayons une copie du modèle et des ensembles de tests maintenant, nous n'avons donc pas besoin de relancer la formation juste pour faire l'analyse

Une fois que vous avez tout ce qui précède, veuillez créer une demande de traction dans le référentiel. Voir les directives ici.

Structure de mon PR:

Voir aussi cela comme un exemple de la structure de votre contribution

Structure:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

Exemple:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

Voici un lien vers une demande de traction qui a les choses pertinentes.

Se sentir nerveux à l'idée de contribuer à votre première demande de traction ou de ne pas savoir comment procéder? S'il vous plaît, ne vous sentez pas découragé! Envoyez-nous un e-mail ou un message Slack et nous travaillerons ensemble pour obtenir votre contribution en forme de navire!

5. J'ai une base de référence. Que dois-je faire pour l'améliorer?

Cool! Il existe donc de nombreuses façons d'améliorer les résultats. Nous en avons montré quelques-uns dans ce document. Vous avez d'autres idées? Déposez-nous une ligne ou soumettez un PR!

Notes sur le déploiement du modèle

Nous aimerions souligner comment aucun des modèles formés ne convient à l'utilisation de la production . Dans notre article ici, nous explorons les effets de performance de la formation d'un tel modèle sur les ensembles de données JW300 - les modèles sont toujours incapables de généraliser à des domaines non religieux. En règle générale, il ne faut jamais déployer un modèle de PNL dans un domaine pour lequel il n'a pas été formé. Et même s'il est formé sur le domaine pertinent, un modèle doit être analysé en détail pour comprendre les biais et les dommages potentiels . Ces modèles visent à servir de travail en cours pour stimuler davantage de recherches et mieux comprendre l'échec de ces systèmes.

Code de conduite

Voir code de conduite

Référence

Bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 214.25MB
Provenant de Github

Applications connexes

version bêta du gestionnaire mt

2024-09-25
Monde MT

2023-08-18
Application vélo Meituan MT

2023-07-27
Version Android de MT Photos

2023-05-18
MT revient

2023-04-18
Voleur d'images MT

2009-05-09

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout