tts german pytorch Download - tts german pytorch Quellcode Download

tts german pytorch

AI-Quellcode

1.0.0

Herunterladen

TTS-German-Pytorch

Fastpitch (Arxiv) trainierte auf Thorsten Müllers Thorsten-2022.10 und Thorsten-21.06-emotionale Datensätze.

Audio -Samples

Sie können hier einige Audio -Samples anhören.

Schnelles Setup

Erforderliche Pakete: torch torchaudio pyyaml phonemizer

Hier finden Sie hier, um phonemizer und das espeak-ng Backend zu installieren.

~ Für das Training: librosa matplotlib tensorboard

~ Für die Demo -App: fastapi "uvicorn[standard]"

Laden Sie die vorgezogenen Gewichte für den FastPitch -Modelllink herunter.

Laden Sie die Hifi-Gan-Vocoder-Gewichte (Link) herunter. Stecken Sie sie entweder in ein pretrained/hifigan-thor-v1 oder bearbeiten Sie die folgenden Zeilen in configs/basic.yaml .

 # vocoder
vocoder_state_path : pretrained/hifigan-thor-v1/hifigan-thor.pth
vocoder_config_path : pretrained/hifigan-thor-v1/config.json

Verwenden der Modelle

Der FastPitch von models.fastpitch ist ein Wrapper, der Text-zu-Mel-Inferenz vereinfacht. Das FastPitch2Wave -Modell enthält den Hifi-Gan-Vocoder für direkte Inferenz für direkte Text-zu-Sprache.

Abschließung des MEL -Spektrogramms

 from models . fastpitch import FastPitch
model = FastPitch ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
mel_spec = model . ttmel ( "Hallo Welt!" )

End-to-End-Text-zu-Sprache

 from models . fastpitch import FastPitch2Wave
model = FastPitch2Wave ( 'pretrained/fastpitch_de.pth' )
model = model . cuda ()
wave = model . tts ( "Hallo Welt!" )

wave_list = model . tts ([ "null" , "eins" , "zwei" , "drei" , "vier" , "fünf" ])