Akustisch-fastspeech2 (Custom)
Angemessene Leistung durch Verwendung von Transferlernen für die Personalisierung mit geringen Datenmengen
Stellen Sie APIs bereit, die in Echtzeit mit Feinabstimmung in koreanischen Datensätzen erstellt werden können
Modellcode-Änderung gemäß Feinabstimmung
Einfache Vorverarbeitung, Zug, Synthese durch Shell -Skript
Geben Sie ein einzigartiges Docker -Bild an
Es entspricht dem Dateinamen von FastSpeech2 und Hifi-Gan-PreAnt-CKPT und hält es in jedem Modell.
(Fastspeech2: 30.000 Stufen -Lernen / HiFi -gan -Jungil Kings Offizieller vorgetäuschte -Universitätsuniversität)
Für das Lernen und die Synthese laden wir Docker -Bilder, die alle abhängigen Pakete enthalten.
docker pull hws0120/e2e_speech_synthesis
Run_fs2_preprocessing.sh Schritte werden mit einem Conda -Befehl mit Docker verbunden und installiert das Python -Paket Jamo.
conda activate aligner
pip install jamo
Ende der virtuellen Umgebung zur Durchführung von Run_FS2_Train oder Synthese.
conda activate base
Wenn Sie alle oben genannten Elemente treffen, führen Sie das Shell -Skript aus, um das MFA zu extrahieren.
sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Erstellt erfolgreich einen TextGrid, um die virtuelle Umgebung zu verlassen und das Lernskript auszuführen.
sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Wenn FastSpeech2 5000-Stufen-Lernen abgeschlossen ist, führen Sie das Hifi-Gan-Skript aus.
sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Wenn ein im CKPT -Ordner gelernter Modell fertig ist, führen Sie ein Skript für die Synthese aus.
sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Jeder Container ist im Lern- und Syntheseprozess und im Prozess wie gezeigt festgelegt.
Wenn Sie über einen geeigneten Hifi-Gan-Checkpoint verfügen, können Sie Hifi-Gan-Lernen weglassen.