FastSpeech2 Pytorch Korean Multi Speaker -Download - FastSpeech2 Pytorch Korean Multi Speaker -Quellcode Download

Herunterladen

Fastspeech2-Pytorch-Korean-Multi-Sprecher

Dieses Projekt wird in koreanischen Multi-Sprecher-TTs durch Kombination von Hifi-Gan-Vocoder mit Fastspeech2 implementiert.

Dieses Projekt zielt darauf ab , die TTs des „sichtbaren personalisierten KI -Sprechers“ -Projekts zu entwickeln . Es wird eher durch die Stimmen der Menschen um Sie herum ersetzt und nicht durch die Stimmen von "Siri", "Bixby" und "Ari". (Bsp. Ehepartner, Sohn, Tochter, Eltern usw.)
Um mit der sofortigen Produktion von KI-Lautsprechern umzugehen, anstatt die hervorragende Leistung von Tacotron2 und Waveglow, übernahm nicht autoregressitiver Mostspeech2- und GaN-basierter Vocoder-Modell Hifi -gan sowohl Qualität als auch Produktionsgeschwindigkeit in Betracht.
Basierend auf dem FastSpeech2 -Quellcode, der dem koreanischen Datensatz KSS entspricht, der in Dlllab implementiert ist.

Verwendung von akustisch-fastspeech2, Vocoder-Hifigan-Modell für schnelle Synthesegeschwindigkeit und hohe Leistung
Übertragung der Lernen verwendet, um mit geringen Datenmengen zu personalisieren (Datenmengen ( ~~+ Zero-Shot-Klonen~~ Seitenprojekt )
Lautsprecher einbettet die Implementierung ein, um Multi-Lautsprecher für den Vor-Training zu lernen
Pipeline-Konfiguration so, dass der Lernprozess im koreanischen Datensatz zum End-to-End durchgeführt wird

Lernen Sie für Pre-Train mit AIHUBs kostenlose Gesprächsstimme.
- Im Durchschnitt, 1 Stunde und 30 Minuten, lernen Sie mit 30 Männern und 28 weiblichen Daten unter Berücksichtigung der Qualität
- Jeder Sprecher gewährte im Vorbehandlungsprozess eine eindeutige Zahlen -ID
Informationen zum KSS-Skript finden Sie in der Feinabstimmung und zeichnen Sie die Stimme des neuen Sprechers in 100 Sätzen-300-Satz-600-Sätzen auf, um die Leistung zu bewerten.

Der hinzugefügte Inhalt im verwendeten Code lautet wie folgt.

Implementierung der Sprecherbettung (Koreanische Multi-Sprecher-Fastspeech2)
- Fügen Sie dem Modell Einbettungsschicht hinzu
- Encoderausgabe und Codeimplementierung (Einbettung, Sprecherintegrator)
- Funktion Implementierung von Get_Speakers (), die Informationen importiert und speichert
Data_Proprocessing.py-End-to-End-Datenvorbehandlungsimplementierung, die alle folgenden Elemente enthalten
Reaktion auf instabile Synthese langer Sätze
- Stellen Sie es fest, dass es nach der Synthese in einer speziellen Zeicheneinheit (Satzeinheit) beigefügt ist.
Importieren von G2PK -Quellcode und Anwendung von nur Zahlen und Englisch
- Ändern Sie das Paket des vorhandenen G2PK in nur koreanischer Sprache ohne PIP -Installation.

Speichern Sie das WAV -Verzeichnis und die JSON- oder Transkript -Datei im Verzeichnis Datensatz/Datenname, wie gezeigt.
Lernen Sie Montral, der Alinger in Kaldi gezwungen hat, TextGrid durch Lernen von Audiodaten zu lernen.
```
 # lab 생성, mfa 학습, lab 분리
python data_preprocessing.py 
```
Speichern Sie den von Hifi -gan gelernten Generator für die Bewertung während des Lernens im Vocoder/Pretierten_Models-Verzeichnis.

Schreiben Sie die Daten direkt gemäß dem Format oder erstellen Sie ein Transkript, indem Sie sich auf die Funktion der Data_preprozessing.py beziehen.
Speichern Sie das generierte Transkript und das Verzeichnis der Daten im Datensatz und führen Sie die Data_Proprocessing.py aus
Die MFA -Arbeiten werden abgeschlossen und die Datei textgrid.zip im oberen Verzeichnis erstellt
Precess.py führt und überprüft den vorrogenen Ordner.

Richten Sie den Pfad von Hparam.Pys Chargengröße, Hifi-Gan-Generator ein und beginnen Sie zu lernen.
```
 python train.py
```
Wenn Sie studieren, können Sie lernen, indem Sie restore_step hinzufügen.
```
 python train.py --restore_step [step]
```

Wenn Sie Pre-Training für Multi-Sprecher durchführen, hat Speicherlautsprecher_info.json beim Lernen vor dem Training automatisch generiert
Setzen Sie Lautsprecher_info.json an die Spitze des Verzeichnisses
Führen Sie Python auf die gleiche Weise wie eine Studie im Zug durch
```
 python train.py --restore_step [pre-train의 step]
```

Diese Pipeline ist eine Flow -Pipeline für das TTS -Lernen und die Erstellung, die dem Dienst entspricht.

Transfer_learning_pipeline

Die Behälter sind größtenteils als vier eingestuft.
1. Datenbankcontainer mit Pfad und Benutzerinformationen der Daten
2. Transkriptionserstellung, Vereinfachung des Dateinamens, Textgrid -Extraktion mit MFA, Datenvorverarbeitungscontainer für das Modell
3. Lernbehälter für die Vorausbildung
4. Lernen von Container zur Feinabstimmung auf neue Daten
In der tatsächlichen Servicesituation funktionieren nur drei Container.

Expandieren

Zusätzliche Informationen