FastPitch (ARXIV) treinado nos conjuntos de dados Thorsten-2022.10 de Thorsten Müller e Thorsten-21.06.

Você pode ouvir algumas amostras de áudio aqui.
Pacotes necessários: torch torchaudio pyyaml phonemizer
Consulte aqui para instalar phonemizer e o back-end espeak-ng .
~ Para treinamento: librosa matplotlib tensorboard
~ Para o aplicativo de demonstração: fastapi "uvicorn[standard]"
Faça o download dos pesos pré -tenhados para o link do modelo FastPitch.
Faça o download dos pesos do vocoder Hifi-Gan (link). Coloque-os em pretrained/hifigan-thor-v1 ou edite as seguintes linhas em configs/basic.yaml .
# vocoder
vocoder_state_path : pretrained/hifigan-thor-v1/hifigan-thor.pth
vocoder_config_path : pretrained/hifigan-thor-v1/config.json O FastPitch da models.fastpitch é um invólucro que simplifica a inferência de texto para mel. O modelo FastPitch2Wave inclui o vocoder Hifi-Gan para inferência direta de texto em fala.
from models . fastpitch import FastPitch
model = FastPitch ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
mel_spec = model . ttmel ( "Hallo Welt!" ) from models . fastpitch import FastPitch2Wave
model = FastPitch2Wave ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
wave = model . tts ( "Hallo Welt!" )
wave_list = model . tts ([ "null" , "eins" , "zwei" , "drei" , "vier" , "fünf" ])O aplicativo da web usa a biblioteca FASTAPI. Para executar o aplicativo, você precisa dos seguintes pacotes:
FASTAPI: Para a API de back -end | Uvicorn: para servir o aplicativo
Instale com: pip install fastapi "uvicorn[standard]"
Corra com: python app.py
Visualização:

Obrigado a Thorsten Müller pelos conjuntos de dados de alta qualidade.
Os arquivos FastPitch decorrem dos exemplos de popa de NVIDIA