StyleSpeech -Download - StyleSpeech Quellcode Download

StyleSpeech

AI-Quellcode

v1.0.2

Herunterladen

Stylespeech - Pytorch -Implementierung

Pytorch-Implementierung von Meta-StyleSpeech: Multi-Speaker-adaptive Text-to-Speech-Generierung.

Zweig

Stylespeech ( naive Zweig)
Meta-Stylespeech ( main )

QuickStart

Abhängigkeiten

Sie können die Python -Abhängigkeiten mit installieren

 pip3 install -r requirements.txt

Schlussfolgerung

Sie müssen vorgefertigte Modelle herunterladen und in output/ckpt/LibriTTS_meta_learner/ einfügen.

Für englische Multi-Sprecher-TTs laufen

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --ref_audio path/to/reference_audio.wav --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Die erzeugten Äußerungen werden in output/result/ . Ihre synthetisierte Rede hat den Stil von ref_audio .

Batch -Inferenz

Batch -Inferenz wird ebenfalls unterstützt, versuchen Sie es

 python3 synthesize.py --source preprocessed_data/LibriTTS/val.txt --restore_step 200000 --mode batch -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

So synthetisieren Sie alle Äußerungen in preprocessed_data/LibriTTS/val.txt . Dies kann als Rekonstruktion von Validierungsdatensätzen angesehen werden, die sich als Referenzstil auf sich selbst beziehen.

Kontrollierbarkeit

Die Tonhöhe/Volumen-/Sprechrate der synthetisierten Äußerungen kann durch Angabe der gewünschten Pitch/Energy/Dauer -Verhältnisse gesteuert werden. Zum Beispiel kann man die Sprechrate um 20 % erhöhen und das Volumen um 20 % verringern

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml --duration_control 0.8 --energy_control 0.8

Beachten Sie, dass die Kontrollierbarkeit von Fastspeech2 stammt und kein wesentliches Interesse an Stylespeech. In Styler [Demo, Code] finden Sie die Kontrollierbarkeit jedes Stilfaktors.

Ausbildung

Datensätze

Die unterstützten Datensätze sind

Libritts: Ein englischer Datensatz mit mehreren Sprechern mit 585 Stunden Sprache von 2456 Sprechern.
(wird mehr hinzugefügt)

Vorverarbeitung

Laufen

 python3 prepare_align.py config/LibriTTS/preprocess.yaml

Für einige Vorbereitungen.

Für die erzwungene Ausrichtung wird Montreal erzwungene Aligner (MFA) verwendet, um die Ausrichtungen zwischen den Äußerungen und den Phonemsequenzen zu erhalten. Vorextrahierte Ausrichtungen für die Datensätze werden hier bereitgestellt. Sie müssen die Dateien in preprocessed_data/LibriTTS/TextGrid/ entpacken. Alternativ können Sie den Aligner selbst ausführen.

Führen Sie danach das Vorverarbeitungskript durch

 python3 preprocess.py config/LibriTTS/preprocess.yaml

Ausbildung

Trainieren Sie Ihr Modell mit

 python3 train.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Wie im Papier beschrieben, beginnt das Skript von der Voraussetzung des naiven Modells bis zu meta_learning_warmup Schritten und dann das Modell für zusätzliche Schritte über episodisches Training.

Tensorboard

Verwenden

 tensorboard --logdir output/log/LibriTTS

Tensorboard auf Ihrem örtlichen Haus servieren. Die Verlustkurven, synthetisierte Melspektrogramme und Audios werden gezeigt.

Implementierungsprobleme

Verwenden Sie 22050Hz Abtastrate anstelle von 16kHz .
Fügen Sie zu Beginn des Mel-Stil-Encoders eine vollständig verbundene Schicht hinzu, um das Melspektrogramm des Eingangs von 80 bis 128 zu verbessern.
Die Modellgröße einschließlich Meta-Lerner beträgt 28.197M .
Verwenden Sie eine maximal 16 Chargengröße für das Training anstelle von 48 oder 20 hauptsächlich aufgrund des Mangels an Speicherkapazität mit einem einzigen 24-Gib-Titan-RTX . Dies kann durch das folgende Skript erreicht werden, um Daten länger als max_seq_len herauszufiltern:
```
 python3 filelist_filtering.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml
```
Dies train_filtered.txt am selben Ort von train.txt .
Da die Gesamtstapelgröße verringert wird, wird die Anzahl der Trainingsschritte im Vergleich zum Originalpapier verdoppelt.
Verwenden Sie Hifi-Gan anstelle von Melgan zum Vokodieren.

Zitat

 @misc{lee2021stylespeech,
  author = {Lee, Keon},
  title = {StyleSpeech},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/StyleSpeech}}
}

Referenzen

Meta-Stylespeech: Multi-Sprecher-adaptiver Text-zu-Sprache-Erzeugung
Eine stilbasierte Generatorarchitektur für generative kontroverse Netzwerke
Passende Netzwerke für ein Schusslernen
Prototypische Netzwerke für wenige Schüsse-Lernen
Tadam: Aufgabenabhängige adaptive Metrik für ein verbessertes Lernen von wenigen Schichten
Ming024's Fastspeech2

Expandieren

Zusätzliche Informationen