Fastpitch (ARXIV) formé sur les ensembles de données Thorsten - 2022.10 et Thorsten-21.06 de Thorsten Müller.

Vous pouvez écouter quelques échantillons audio ici.
Packages requis: torch torchaudio pyyaml phonemizer
Veuillez vous référer à ICI pour installer phonemizer et le backend espeak-ng .
~ pour la formation: librosa matplotlib tensorboard
~ Pour l'application de démonstration: fastapi "uvicorn[standard]"
Téléchargez les poids pré-entraînés pour le lien du modèle FastPitch.
Téléchargez les poids de vocoder Hifi-gan (lien). Soit les mettre dans pretrained/hifigan-thor-v1 ou modifiez les lignes suivantes dans configs/basic.yaml .
# vocoder
vocoder_state_path : pretrained/hifigan-thor-v1/hifigan-thor.pth
vocoder_config_path : pretrained/hifigan-thor-v1/config.json Le FastPitch de models.fastpitch est un emballage qui simplifie l'inférence text-to-mel. Le modèle FastPitch2Wave comprend le vocodeur HIFI-GAN pour l'inférence directe du texte-dispection.
from models . fastpitch import FastPitch
model = FastPitch ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
mel_spec = model . ttmel ( "Hallo Welt!" ) from models . fastpitch import FastPitch2Wave
model = FastPitch2Wave ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
wave = model . tts ( "Hallo Welt!" )
wave_list = model . tts ([ "null" , "eins" , "zwei" , "drei" , "vier" , "fünf" ])L'application Web utilise la bibliothèque Fastapi. Pour exécuter l'application, vous avez besoin des packages suivants:
Fastapi: pour l'API backend | Uvicorn: pour servir l'application
Installer avec: pip install fastapi "uvicorn[standard]"
Exécutez avec: python app.py
Aperçu:

Merci à Thorsten Müller pour les ensembles de données de haute qualité.
Les fichiers FastPitch proviennent de DeepLearning Examples de Nvidia