Fastpitch (ARXIV) entrenado en los conjuntos de datos emocionales de Thorsten Müller y Thorsten-21.06-emocionales.

Puedes escuchar algunas muestras de audio aquí.
Paquetes requeridos: torch torchaudio pyyaml phonemizer
Consulte aquí para instalar phonemizer y el backend espeak-ng .
~ Para el entrenamiento: librosa matplotlib tensorboard
~ Para la aplicación de demostración: fastapi "uvicorn[standard]"
Descargue los pesos previos a la aparición para el enlace del modelo FastPitch.
Descargue los pesos Hifi-Gan Vocoder (enlace). Póngalos en pretrained/hifigan-thor-v1 o edite las siguientes líneas en configs/basic.yaml .
# vocoder
vocoder_state_path : pretrained/hifigan-thor-v1/hifigan-thor.pth
vocoder_config_path : pretrained/hifigan-thor-v1/config.json FastPitch de models.fastpitch es un envoltorio que simplifica la inferencia de texto a malgrafía. El modelo FastPitch2Wave incluye el Vocoder Hifi-Gan para la inferencia directa de texto a voz.
from models . fastpitch import FastPitch
model = FastPitch ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
mel_spec = model . ttmel ( "Hallo Welt!" ) from models . fastpitch import FastPitch2Wave
model = FastPitch2Wave ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
wave = model . tts ( "Hallo Welt!" )
wave_list = model . tts ([ "null" , "eins" , "zwei" , "drei" , "vier" , "fünf" ])La aplicación web utiliza la biblioteca Fastapi. Para ejecutar la aplicación necesita los siguientes paquetes:
Fastapi: para la API de backend | Uvicorn: para servir la aplicación
Instale con: pip install fastapi "uvicorn[standard]"
Ejecutar con: python app.py
Avance:

Gracias a Thorsten Müller por los conjuntos de datos de alta calidad.
Los archivos de FastPitch provienen de DeeplearningExmples de NVIDIA