PortaSpeech -Download - PortaSpeech -Quellcode herunterladen

PortaSpeech

AI-Quellcode

v0.2.0

Herunterladen

Portaspeech - Pytorch -Implementierung

Pytorch-Implementierung von Portaspeech: tragbare und hochwertige generative Text-zu-Sprache.

Audio -Samples

Audio -Samples sind bei /Demo erhältlich.

Modellgröße

Modul	Normal	Klein	Normal (Papier)	Klein (Papier)
Gesamt	24m	7,6 m	21,8 m	6,7 m
LinguisticCoder	3,7 m	1,4 m	- -	- -
Variationalgenerator	11m	2,8 m	- -	- -
FlowPostnet	9,3 m	3,4 m	- -	- -

QuickStart

Datensatz bezieht sich auf die Namen von Datensätzen wie LJSpeech in den folgenden Dokumenten.

Abhängigkeiten

Sie können die Python -Abhängigkeiten mit installieren

 pip3 install -r requirements.txt

Außerdem wird Dockerfile für Docker -Benutzer bereitgestellt.

Schlussfolgerung

Sie müssen die vorbereiteten Modelle herunterladen und in output/ckpt/DATASET/ einfügen.

Für einen TTS mit einem Lautsprecher laufen Sie

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Die erzeugten Äußerungen werden in output/result/ .

Batch -Inferenz

Batch -Inferenz wird ebenfalls unterstützt, versuchen Sie es

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

So synthetisieren Sie alle Äußerungen in preprocessed_data/DATASET/val.txt .

Kontrollierbarkeit

Die Sprechrate der synthetisierten Äußerungen kann durch Angabe der gewünschten Dauerverhältnisse gesteuert werden. Zum Beispiel kann man die Sprechrate um 20 nach 20 erhöhen

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

Bitte beachten Sie, dass die Steuerbarkeit aus Fastspeech2 und kein wesentliches Interesse an Portaspeech stammt.

Ausbildung

Datensätze

Die unterstützten Datensätze sind

LJSpeech: Ein englischer Datensatz mit einem Lautsprecher besteht aus 13100 kurzen Audioclips einer weiblichen Lautsprecherin, die Passagen aus 7 Sachbüchern mit insgesamt ca. 24 Stunden liest.

Vorverarbeitung

Laufen

 python3 prepare_align.py --dataset DATASET

Für einige Vorbereitungen.

Für die erzwungene Ausrichtung wird Montreal erzwungene Aligner (MFA) verwendet, um die Ausrichtungen zwischen den Äußerungen und den Phonemsequenzen zu erhalten. Vorextrahierte Ausrichtungen für die Datensätze werden hier bereitgestellt. Sie müssen die Dateien in preprocessed_data/DATASET/TextGrid/ entpacken. Alternativ können Sie den Aligner selbst ausführen.

Führen Sie danach das Vorverarbeitungskript durch

 python3 preprocess.py --dataset DATASET

Ausbildung

Trainieren Sie Ihr Modell mit

 python3 train.py --dataset DATASET

Nützliche Optionen:

Um automatische gemischte Präzision zu verwenden, append --use_amp Argument zum obigen Befehl.
Der Trainer nimmt ein einziges Knoten-Multi-GPU-Training an. Um spezifische GPUs zu verwenden, geben Sie am Anfang des obigen Befehls CUDA_VISIBLE_DEVICES=<GPU_IDs> an.

Tensorboard

Verwenden

 tensorboard --logdir output/log

Tensorboard auf Ihrem örtlichen Haus servieren. Die Verlustkurven, synthetisierte Melspektrogramme und Audios werden gezeigt.

Normales Modell

Kleiner Modellverlust

Notizen

Für Vocoder werden Hifi -gan und Melgan unterstützt.
Keine Relu -Aktivierung und Layernorm im Variationalgenerator, um die Ausgangsleistung zu vermeiden.
Beschleunigen Sie die Konvergenz der Wort-zu-Phonem-Ausrichtung im LinguisticEncoder , indem Sie lange Wörter in Subwords einteilen und den Datensatz nach Melspektrogrammrahmenlänge sortieren.
Es gibt zwei Arten von Helferverlust, um die Ausrichtung der Wort-zu-Phonem-Ausrichtung zu verbessern: "CTC" und "DGA". Sie können sie wie folgt umschalten:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": Diagonal geführte Aufmerksamkeit (DGA) Verlust
- "CTC": CTC-Verlust (Connectionist Temporal Classification) mit Vorwärtssummenalgorithmus
- Wenn Sie "keine" festlegen ", wird während des Trainings kein Helferverlust angewendet.
- Die Ausrichtungsvergleich von drei Methoden ("DGA", "CTC" und "None" von oben bis unten):
- Die Standardeinstellung ist "DGA". Obwohl "CTC" die stärkste Ausrichtung darstellt, sind die Ausgangsqualität und die Genauigkeit schlechter als "DGA".
- Trotzdem gibt es einen Raum für die Verbesserung der Ausgangsqualität. Die Audioqualität und die Alingment (Genauigkeit) scheinen ein Kompromiss zu sein.
Wird auf ein Multi-Sprecher-TTS ausgedehnt.