PNL biélorusse et ressources de traitement de la parole
Ce référentiel contient des liens vers les ressources et les ensembles de données de traitement du langage naturel et de la parole biélorusse.
Il est inspiré par un projet similaire avec les ressources de traitement de la parole ukrainiennes: Egorsmkv / Speech-Recognition-UK
Todos:
- Ajouter des descriptions détaillées à chacun des éléments de liste
- Évaluez les modèles sur les repères et enregistrez leurs performances
? Discours à texte
? Implémentations
? Repères
Comparaisons de modèles regroupées par ensemble de données. FAIRE
? Ensembles de données
- Voix commune. Ensemble de données de reconnaissance vocale
- Ensemble de données de Knihi.com. TODO: Quel est le type d'ensemble de données?
- Google / Fleur
- SSRLAB: TODO. Ensemble de données de reconnaissance vocale
? Texte vocal
? Implémentations
- Implémentations de Coquiai
- Jhlfrfufyfn / bel-tts. Glowtts + Hifigan
- Code
- Modèle
- Demo sur Hugging Face
- Demo sur une page Web personnalisée. Le code source de la page de démonstration: ici
- Alex73 / Bélarus-TTS. Mise en œuvre de Coquiai par Yurii Paniv (@Robinhad).
Le repo et les modèles originaux ont été supprimés - Seule la fourche est disponible maintenant
PNL
Plafond de postes
- Koichiyasuoka / Roberta-Small-Bearusian-upos
- Stanfordnlp / Stanza-Be
- Poritski / yabc_tagger. Pos-Tagger basée sur des règles et lemmatizer.
Écrit en perl. Utilise Poritski / YABC comme base de grammaire (?) - Volchek / Beltagger. Une version améliorée de Poritski / YABC_TAGGER basée sur des règles de règle et de lemmatizer.
Multiplateforme, écrite en C ++.
Problèmes connus:- nécessite des données d'entrée pour être incrofiées dans Windows-1251, ne prend pas en charge UTF-8;
- Tagset n'est pas entièrement compatible avec la base de tagset et de grammaire de Bnkorpus
- La base de grammaire utilisée n'est pas assez pleine. Le Bélarus / Grammardb est une meilleure source de paradigmes mais n'est pas encore incorporé
- Le script de calcul de la table de suffixe n'est pas porté de Perl à C ++
- Le code utilise Boost Libarary
Autre
- Pkasila / Bel-Sklony - Page Web avec déclinaison des noms biélorusses. Demo: sklony.pkasila.net
Modélisation de la langue masquée
- Koichiyasuoka / Roberta-Small-Belarusan
Ensembles de données
- oscar
- MC4
- Poritski / yabc - ээсерыентальны корп journ
- Bélarus / Grammardb - Base de données grammaire de la langue biélorusse
- Tsimafeip / Traductor - Dataset avec paires de traduction russe-bilarusienne
- Ensemble de données des dépendances universelles:
- Phrases tatoeba biélorusses
? ♀️? Communautés et plateformes:
- corpus. par
- ssrlab.by
- bnkorpus.info
- Organisation du Bélarus sur Github
- NlPro.By Communauté sur GitHub
? Non trié