Recursos bielorrusos de PNL y procesamiento del habla
Este repositorio contiene enlaces al lenguaje natural bielorruso y los recursos de procesamiento de voz y los conjuntos de datos.
Está inspirado en un proyecto similar con recursos de procesamiento del habla ucraniano: EgorsMKV/Speech-Recrecnition-UK
Todos:
- Agregue descripciones detalladas a cada uno de los elementos de la lista
- Evaluar modelos en puntos de referencia y registrar su rendimiento
? Voz a texto
? Implementación
? Puntos de referencia
Comparaciones de modelos agrupadas por conjunto de datos. HACER
? Conjuntos de datos
- Voz común. Conjunto de datos de reconocimiento de voz
- Conjunto de datos de knihi.com. TODO: ¿Cuál es el tipo de conjunto de datos?
- Google/Fleurs
- SSRLAB: TODO. Conjunto de datos de reconocimiento de voz
? Texto a voz
? Implementación
- Implementaciones de Coquiai
- jhlfrfufyfn/bel-tts. GLOWTTS + HIFIGAN
- Código
- Modelo
- Demostración en Huggingface
- Demostración en una página web personalizada. El código fuente para la página de demostración: aquí
- Alex73/Bielorrusian-TTS. Implementación de Coquiai por Yurii Paniv (@Robinhad).
Se eliminaron el repositorio y los modelos originales: solo la bifurcación está disponible ahora
PNLP
Pospagado
- Koichiyasuoka/Roberta-Small-Belarusian-Upos
- stanfordnlp/estrofa
- Poritski/yabc_tagger. POS-Tagger y Lemmatizer basados en reglas.
Escrito en Perl. Utiliza Poritski/YABC como base de gramática (?) - Volchek/Beltagger. Una versión mejorada de PORITSKI/YABC_Tagger POS-Tagger y Lemmatizer.
Multiplataforma, escrita en C ++.
Problemas conocidos:- requiere que los datos de entrada estén incodificados en Windows-1251, no admite UTF-8;
- TagSet no es totalmente compatible con la base de etiquetas y gramática de Bnkorpus
- La base gramática utilizada no es lo suficientemente completa. Bielorrusia/GrammardB es una mejor fuente de paradigmas pero aún no se incorpora
- El script de cálculo de la tabla de sufijo no se porta de Perl a C ++
- El código usa la libería BOOST
Otro
- PKASILA/BEL -SKLONY - Página web con sustantivos bielorrusos declinación. Demo: sklony.pkasila.net
Modelado de idiomas enmascarados
- Koichiyasuoka/Roberta-Small-Belarusian
Conjuntos de datos
- Oscar
- MC4
- poritski/yabc - эксперыентальны корпус беларускай м, экбм
- Bielorrusia/GrammardB - Base de datos de gramática del idioma bielorruso
- tsimafeip/traductor - conjunto de datos con pares de traducción rusa -bellara
- Conjunto de datos de dependencias universales:
- Página
- Repositorio de Github
- Oraciones bielorrusas de Tatoeba
? ♀️? Comunidades y plataformas:
- Corpus.by
- ssrlab.by
- bnkorpus.info
- Organización de Bielorrusia en Github
- NLPROC.BY COMUNIDAD EN GITHUB
? No atento