FastSpeech2 Download - FastSpeech2 Quellcode herunterladen

FastSpeech2

AI-Quellcode

1.0.0

Herunterladen

Fastspeech 2

Inoffizielle Pytorch-Implementierung von Fastspeech 2: Schneller und hochwertiger End-to-End-Text zur Sprache . Dieses Repo verwendet die Fastspeech -Implementierung von ESPNET als Basis. In dieser Implementierung habe ich versucht, die genauen Papierdetails zu replizieren, aber dennoch eine Änderung für ein besseres Modell erforderlich, dieses Repo ist für jegliche Vorschläge und Verbesserungen geöffnet. Dieses Repo verwendet die Vorverarbeitung von Nvidia Tacotron 2 für Audio-Vorverarbeitung und Melgan als Vocoder.

Demo:

Anforderungen :

Alle in Python 3.6.2 geschriebenen Code.

Pytorch installieren

Vor der Installation von Pytorch überprüfen Sie bitte Ihre CUDA -Version, indem Sie den folgenden Befehl ausführen: nvcc --version

 pip install torch torchvision

In diesem Repo habe ich Pytorch 1.6.0 für torch.bucketize Funktion verwendet, die in früheren Pytorch -Versionen nicht vorhanden ist.

Weitere Anforderungen installieren:

 pip install -r requirements.txt

Um Tensorboard zu verwenden, installieren Sie tensorboard version 1.14.0 separat mit unterstütztem tensorflow (1.14.0)

Für die Vorverarbeitung:

Der filelists enthält MFA -Datensatzdateien (Motreal Force Aligner), sodass Sie den Text für den LJSpeech -Datensatz nicht mit Audio (für die Extraktdauer) ausrichten müssen. Für einen anderen Datensatz folgen Sie den Anweisungen hier. Für andere vorverarbeitende Ausführungsbefehlsbefehl:

 python .nvidia_preprocessing.py -d path_of_wavs

Zum Auffinden der Min und Max von F0 und Energie

 python .compute_statistics.py

Aktualisieren Sie Folgendes in hparams.py von Min und Max von F0 und Energie

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Zum Training

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Für Inferenz

Derzeit wurde nur von Phonemes basierende Synthese unterstützt.

 python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1ts_version2_fastspeech_fe9a2c7_7k_steps.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."

Für den Export von Torchscript

 python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc

Kontrollpunkt und Proben:

Checkpoint finden Sie hier
Für Proben prüfen Sie den sample .

Tensorboard

Ausbildung :
Tensorboard
Validierung :

Notiz

Die Kodierung dieses Repo wird grob durchgeführt, um das Papier- und Experimentierzweck neu zu produzieren. Benötigte eine Codereinigung und eine Opyimisierung, um bessere Verwendung zu verwenden.
Derzeit produziert dieses Repo von hochwertiger Audio, aber es ist immer noch in der WIP, viele Verbesserungen erforderlich.
Die Verlustkurve für F0 ist ziemlich hoch.
Ich benutze RAW F0 und Energie für das Training eines Modells, aber wir können auch Normale F0 und Energie für stabiles Training verwenden.
Verwenden Sie Postnet für eine bessere Audioqualität.
Für umfassendere und enden -enden -Sprachklone oder Text -to -Sprach -Toolbox (TTS).