End to End TTS Fine Tune Download - End to End TTS Fine Tune Source Code Download

Herunterladen

End-to-End-TTS-Feinabstimmung

Dieses Projekt zielt darauf ab, das TTS -System von " AI -Assistenten für Senioren " zu entwickeln. Sie können einen Assistenten für künstliche Intelligenz mit der Stimme von Familie oder Freunden und Liebhabern mit nur 5 Minuten Sprachaufzeichnung erstellen.
Um mit dem KI-Lautsprecher fertig zu werden, der eine Echtzeit-Generation erfordert, haben wir das nicht autoregressive akustische Modell Fastspe2 und das GaN-basierte Vocoder-Modell Hifi-Gan übernommen, um Qualität und Produktionsgeschwindigkeit zu berücksichtigen.
Es wurden zusätzliche Bräuche durchgeführt, um die Leistung von Multi-Lautsprechern zu verbessern.
Dieses Repository ist so konfiguriert, dass sie einfach den Lern- und Erstellungsprozess ausführen, indem das Shell-Skript verwendet wird, um den D-Vektor-Multi-Lautsprecher Fastspeech2 und die Hifi-Gan-Modelle zu konfigurieren, damit sie in der Lage sind, Geldbußen zu erhalten.
Verwenden Sie Fastapi, um den Server zu konfigurieren und mit dem Backend zu verknüpfen.

Akustisch-fastspeech2 (Custom)
Angemessene Leistung durch Verwendung von Transferlernen für die Personalisierung mit geringen Datenmengen
Stellen Sie APIs bereit, die in Echtzeit mit Feinabstimmung in koreanischen Datensätzen erstellt werden können

Entsprechend der fine_tune_transcript.txt, die zum Datensatzordner gehört, zeichnen Sie 100 Sätze mit der Nummer mit einem Smartphone auf und konvertieren die M4A -Datei in eine WAV -Datei mit einer Stichprobenrate von 16000. (FFMPEG). (FFMPEG)

Wie in der Abbildung gezeigt, werden 100 konvertierte WAV -Dateien zu Ihrem Anfangsordner hinzugefügt.

Modellcode-Änderung gemäß Feinabstimmung
- Fastspeech2- und Hifi-Gan-Modifikation und -integration
- Datensatz, CKPT und Ergebnisverzeichnis sind per Datensatz in das oberste Verzeichnis aufgeteilt
Einfache Vorverarbeitung, Zug, Synthese durch Shell -Skript
- Durch Ändern des Datensatzverzeichnisses
Geben Sie ein einzigartiges Docker -Bild an
- Geben Sie Bilder an, die sofort durchgeführt werden können, ohne komplexe zusätzliche Abhängigkeitspakete hinzuzufügen
- Importieren Sie das neueste Bild über Docker Hub Link

Es entspricht dem Dateinamen von FastSpeech2 und Hifi-Gan-PreAnt-CKPT und hält es in jedem Modell.
(Fastspeech2: 30.000 Stufen -Lernen / HiFi -gan -Jungil Kings Offizieller vorgetäuschte -Universitätsuniversität)
Für das Lernen und die Synthese laden wir Docker -Bilder, die alle abhängigen Pakete enthalten.
```
 docker pull hws0120/e2e_speech_synthesis 
```
Run_fs2_preprocessing.sh Schritte werden mit einem Conda -Befehl mit Docker verbunden und installiert das Python -Paket Jamo.
```
 conda activate aligner
pip install jamo
```
Ende der virtuellen Umgebung zur Durchführung von Run_FS2_Train oder Synthese.
```
 conda activate base
```