Comprehensive E2E TTS Download - Comprehensive E2E TTS Quellcode Download

Comprehensive E2E TTS

AI-Quellcode

1.0.0

Herunterladen

Umfassende E2E-TTS-Pytorch-Implementierung

Ein nicht autoregressiver End-to-End- Text-zu-Sprache (generierende Wellenform gegebenen Text), das eine Familie von SOTA-Modellierungen für unbeaufsichtigte Dauer unterstützt. Dieses Projekt wächst mit der Forschungsgemeinschaft und zielt darauf ab, die ultimativen E2E-TTs zu erreichen . Alle Vorschläge für die besten End-to-End-TTs sind willkommen :)

Architekturdesign

Wavthruvec: Latente Sprachrepräsentation als Zwischenmerkmale für die neuronale Sprachsynthese (Siuzdak et al., 2022)
Jets: gemeinsam Fastspeech2 und Hifi -gan für das Ende von Text zu Sprache (Lim et al., 2022) trainieren (Lim et al., 2022)

Sprachlicher Encoder

Fastspeech 2: Schneller und hochwertiger End-to-End-Text zur Sprache (Ren et al., 2020)

Audio Upsampler

HIFI ++: Ein einheitliches Rahmen für neuronale Vokodierung, Bandbreite und Sprachverbesserung (Andreev et al., 2022)
Hifi-Gan: Generative kontroverse Netzwerke für eine effiziente und High-Fidelity-Sprachsynthese (Kong et al., 2020)

Dauermodellierung

Modellierung der differenzierbaren Dauer für End-to-End-Text-zu-Sprache (Nguyen et al., 2022)
Eine TTS -Ausrichtung, um sie alle zu regieren (Badlani et al., 2021)

QuickStart

Datensatz bezieht sich auf die Namen von Datensätzen wie LJSpeech und VCTK in den folgenden Dokumenten.

Abhängigkeiten

Sie können die Python -Abhängigkeiten mit installieren

 pip3 install -r requirements.txt

Außerdem wird Dockerfile für Docker -Benutzer bereitgestellt.

Schlussfolgerung

Sie müssen die vorbereiteten Modelle herunterladen (werden in Kürze freigegeben) und sie in output/ckpt/DATASET/ einsetzen.

Für einen TTS mit einem Lautsprecher laufen Sie

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Für einen Multi-Sprecher-TTS laufen

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Das Wörterbuch der gelehrten Sprecher finden Sie unter preprocessed_data/DATASET/speakers.json , und die generierten Äußerungen werden in output/result/ .

Batch -Inferenz

Batch -Inferenz wird ebenfalls unterstützt, versuchen Sie es

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

So synthetisieren Sie alle Äußerungen in preprocessed_data/DATASET/val.txt .

Kontrollierbarkeit

Die Tonhöhe/Volumen-/Sprechrate der synthetisierten Äußerungen kann durch Angabe der gewünschten Pitch/Energy/Dauer -Verhältnisse gesteuert werden. Zum Beispiel kann man die Sprechrate um 20 % erhöhen und das Volumen um 20 % verringern

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Fügen Sie -Speaker_id Speaker_id für ein Multi-Sprecher-TTS.

Ausbildung

Datensätze

Die unterstützten Datensätze sind

LJSpeech: Ein englischer Datensatz mit einem Lautsprecher besteht aus 13100 kurzen Audioclips einer weiblichen Lautsprecherin, die Passagen aus 7 Sachbüchern mit insgesamt ca. 24 Stunden liest.
VCTK: Das CSTR-VCTK-Korpus enthält Sprachdaten, die von 110 englischen Sprechern ( Multi-Sprecher-TTs ) mit verschiedenen Akzenten ausgesprochen werden. Jeder Sprecher liest etwa 400 Sätze vor, die aus einer Zeitung, der Regenbogenpassage und einem für das Archiv der Sprachakzent verwendeten Erhebungsabsatz ausgewählt wurden.

Jedes der TTS-Datensatz für einsprachige TTS (z. B. Blizzard Challenge 2013) und Multi-Speaker-TTS- Datensatz (z. B. LIBLITTS) kann nach LJSpeech bzw. VCTK hinzugefügt werden. Darüber hinaus kann hier Ihre eigene Sprache und Ihr eigener Datensatz angepasst werden.

Vorverarbeitung

Download für ein Multi-Sprecher-TTS mit einem externen Lautsprecher-Einbettder Rescnn Softmax+Triplet Pretrainierte Modell von Philipperemy's Deepspeaker für den Lautsprecher-Einbettung und lokalisiert es in ./deepspeaker/pretrained_models/ .
Führen Sie das Vorverarbeitungsskript durch
```
 python3 preprocess.py --dataset DATASET
```

Ausbildung

Trainieren Sie Ihr Modell mit

 python3 train.py --dataset DATASET

Nützliche Optionen:

Der Trainer nimmt ein einziges Knoten-Multi-GPU-Training an. Um spezifische GPUs zu verwenden, geben Sie am Anfang des obigen Befehls CUDA_VISIBLE_DEVICES=<GPU_IDs> an.

Tensorboard

Verwenden

 tensorboard --logdir output/log

Tensorboard auf Ihrem örtlichen Haus servieren.

Notizen

Zwei Optionen zum Einbetten für die Multi-Sprecher-TTS- Einstellung: Trainingslautsprecher Einbettung von Grund auf oder verwenden Sie das Deepspeaker-Modell eines vorgebliebenen Philipperemy (wie es Styler tat). Sie können es umschalten, indem Sie die Konfiguration (zwischen 'none' und 'DeepSpeaker' ) einstellen.
Deepspeaker im VCTK -Datensatz zeigt eine klare Identifizierung unter den Sprechern. Die folgende Abbildung zeigt das T-SNE-Diagramm von extrahiertem Lautsprecher.