StyleTTS2 Download - StyleTTS2 Quellcode Download

StyleTTS2

AI-Quellcode

1.0.0

Herunterladen

Styletts 2: Auf dem Weg zu Text-zu-Sprache auf menschlicher Ebene durch Stildiffusion und kontroverses Training mit großen Sprachmodellen

Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesgarani

In diesem Artikel präsentieren wir Styletts 2, ein TTS-Modell (Text-to-Speech), das die Diffusion des Stils und das kontroverse Training mit großen Sprachmodellen (SLMs) nutzt, um die TTS-Synthese auf Menschenebene zu erreichen. Styletts 2 unterscheidet sich von seinem Vorgänger, indem sie Stile als latente Zufallsvariable durch Diffusionsmodelle modellieren, um den am besten geeigneten Stil für den Text zu erzeugen, ohne Referenzrede zu erfordern und effiziente latente Diffusion zu erreichen und gleichzeitig von der vielfältigen Sprachsynthese zu profitieren, die von Diffusionsmodellen angeboten wird. Darüber hinaus verwenden wir große, vorgeborene SLMs wie WAVLM als Diskriminatoren mit unserer neuartigen Modellierung von Differenzdauer für ein End-to-End-Training, was zu einer verbesserten Sprachnatürlichkeit führt. Styletts 2 übertrifft menschliche Aufnahmen im LJSpeech-Datensatz mit einem Sprecher und stimmt mit dem Multispeaker-VCTK-Datensatz ab, wie von englischen Muttersprachlern beurteilt. Darüber hinaus übertrifft unser Modell, wenn sie auf dem LIBRITTS-Datensatz trainiert, frühere öffentlich verfügbare Modelle für die Anpassung von Null-Shot-Lautsprechern. Diese Arbeit erreicht die erste TTS-Synthese auf menschlicher Ebene sowohl für einzelne als auch für Multispeaker-Datensätze und zeigt das Potenzial der Stildiffusion und des kontroversen Trainings mit großen SLMs.

Papier: https://arxiv.org/abs/2306.07691

Audio -Samples: https://styletts2.github.io/

Online -Demo: Umarmendgesicht (danke @FakeryBakery für die wundervolle Online -Demo)

Todo

Trainings- und Inferenz-Demo-Code für einzelne Sprechermodelle (LJSpeech)
Test-Trainingscode für Multi-Sprecher-Modelle (VCTK und Libritts)
Beenden Sie den Demo-Code für Multispeaker-Modell und laden Sie vorgebrachte Modelle hoch.
Fügen Sie ein Finetuning-Skript für neue Lautsprecher mit vorgeborenen Multispeaker-Modellen hinzu
Fix DDP (Accelerator) für train_second.py (Ich habe alles ausprobiert, um dies zu reparieren, hatte aber keinen Erfolg. Wenn Sie also bereit sind zu helfen, siehe #7).

Voraussetzungen

Python> = 3,7
Klonen Sie dieses Repository:

git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

Installieren Sie die Python -Anforderungen:

pip install -r requirements.txt

Unter Windows hinzufügen:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -U

Installieren Sie auch Phonemizer und Espeak, wenn Sie die Demo ausführen möchten:

pip install phonemizer
sudo apt-get install espeak-ng

Laden Sie den LJSpeech -Datensatz herunter und extrahieren Sie sie in den Datenordner, und beleben Sie die Daten auf 24 kHz. Der Text-Aligner und der Pitch-Extraktor sind auf 24 kHz-Daten vorgebracht. Sie können jedoch die Vorverarbeitung leicht ändern und mithilfe Ihrer eigenen Vorverarbeitung neu ausdehnen. Für Libritts müssen Sie die Zug-Clean-360 mit Zug-Clean-100 kombinieren und die Ordner Train-Clean-460 umbenennen (siehe als Beispiel Val_List_libritts.txt).

Ausbildung

Training der ersten Stufe:

accelerate launch train_first.py --config_path ./Configs/config.yml

Training der zweiten Stufe (DDP -Version funktioniert nicht, sodass die aktuelle Version DP verwendet. Sehen Sie erneut #7, wenn Sie helfen möchten) :

python train_second.py --config_path ./Configs/config.yml

Sie können beide nacheinander laufen und es wird sowohl die erste als auch die zweite Phase trainieren. Das Modell wird im Format "epoch_1st_%05d.PTH" und "epoch_2nd_%05d.Pth" gespeichert. Checkpoints und Tensorboard -Protokolle werden unter log_dir gespeichert.

Das Datenlistenformat muss filename.wav|transcription|speaker sein. Die Lautsprecherbezeichnungen werden für Modelle mit mehreren Lautsprechern benötigt, da wir Referenz-Audio für Style-Diffusionsmodell-Training probieren müssen.

Wichtige Konfigurationen

In config.yml gibt es einige wichtige Konfigurationen, um die man sich kümmern muss:

OOD_data : Der Weg für außergewöhnliche Texte für das SLM-kontroverse Training. Das Format sollte text|anything sein.
min_length : Mindestlänge von OOD -Texten für das Training. Dies soll sicherstellen, dass die synthetisierte Sprache eine Mindestlänge hat.
max_len : maximale Audio -Länge für das Training. Das Gerät ist Rahmen. Da die Standard -Hopfengröße 300 beträgt, beträgt ein Rahmen ungefähr 300 / 24000 (0,0125) Sekunde. Senken Sie dies, wenn Sie auf das außerememorische Problem stoßen.
multispeaker : Setzen Sie auf True, wenn Sie ein Multispeaker -Modell trainieren möchten. Dies ist erforderlich, da die Architektur des Denoiser für einzelne und Multispeaker -Modelle unterschiedlich ist.
batch_percentage : Dies soll sichergestellt werden, dass während des SLM-kontroversen Trainings keine Probleme mit dem Memory (OOM) gibt. Wenn Sie auf das Problem stoßen, legen Sie bitte eine niedrigere Nummer dafür fest.

Vorausgebildete Module

Im Ordner utils gibt es drei vorgebildete Modelle:

ASR-Ordner : Es enthält den vorgeborenen Text-Aligner, der auf Englisch (Libritts), Japanisch (JVS) und Chinese (Aishell) Corpus vorgebracht wurde. Für die meisten anderen Sprachen funktioniert es ohne Feinabstimmung, aber Sie können hier immer Ihren eigenen Text ausbilden: YL4579/Auxiliaryasr.
JDC-Ordner : Er enthält den vorgeborenen Pitch-Extraktor, der nur auf dem englischen (libritts) Korpus ausgebildet wurde. Es funktioniert jedoch auch für andere Sprachen gut, da F0 unabhängig von der Sprache ist. Wenn Sie auf dem Gesang Corpus trainieren möchten, wird empfohlen, einen neuen Pitch -Extraktor mit dem Code hier zu trainieren: YL4579/PitchExtractor.
PLBERT-Ordner : Es enthält das vorgebildete PL-Bert-Modell, das nur auf englischem (Wikipedia) -Rorpus vorgebracht wurde. In anderen Sprachen funktioniert es wahrscheinlich nicht sehr gut, daher müssen Sie einen anderen PL-Bert für verschiedene Sprachen mit dem Repo hier ausbilden: YL4579/PL-TERT. Sie können auch den mehrsprachigen Pl-Bert verwenden, der 14 Sprachen unterstützt.

Häufige Probleme

Der Verlust wird zu NAN : Wenn es sich um die erste Stufe handelt, stellen Sie bitte sicher, dass Sie keine gemischte Präzision verwenden, da dies dazu führen kann, dass der Verlust für bestimmte Datensätze zu einem NAN für bestimmte Datensätze wird, wenn die Chargengröße nicht ordnungsgemäß eingestellt ist (müssen mehr als 16 sein, um gut zu funktionieren). In der zweiten Stufe experimentieren Sie bitte auch mit unterschiedlichen Chargengrößen, wobei höhere Chargengrößen eher NAN -Verlustwerte verursachen. Wir empfehlen, die Stapelgröße 16 zu beträgt. Sie können sich auf die Ausgaben Nr. 10 und Nr. 11 finden, um weitere Informationen zu erhalten.
Aus dem Speicher : Bitte verwenden Sie entweder untere batch_size oder max_len . Weitere Informationen finden Sie in Ausgabe 10.
Nicht englischer Datensatz : Sie können in jeder gewünschten Sprache trainieren, müssen jedoch ein vorgebildetes PL-Bert-Modell für diese Sprache verwenden. Wir haben einen vorgebliebenen mehrsprachigen Pl-Bert, der 14 Sprachen unterstützt. Sie können sich auf YL4579/Styletts #10 und #70 beziehen, um einige Beispiele für chinesische Datensätze zu trainieren.

Feinabstimmung

Das Skript wird von train_second.py geändert, das DP verwendet, da DDP für train_second.py nicht funktioniert. Bitte beachten Sie den obigen kühnen Abschnitt, wenn Sie bereit sind, dieses Problem zu helfen.

python train_finetune.py --config_path ./Configs/config_ft.yml

Bitte stellen Sie sicher, dass der Libritts -Checkpoint unter dem Ordner heruntergeladen und entpackt wird. Die Standard -Konfiguration config_ft.yml -Finetunes auf LJSpeech mit 1 Stunde Sprachdaten (ungefähr 1K -Proben) für 50 Epochen. Dies dauerte ungefähr 4 Stunden, um die vier Nvidia A100 zu beenden. Die Qualität ist etwas schlechter (ähnlich wie bei NaturalSpeech bei LJSpeech) als das LJSpeech -Modell, das von Grund auf mit 24 Stunden Sprachdaten trainiert wurde, wodurch etwa 2,5 Tage dauerte, bis vier A100 abgeschlossen waren. Die Proben finden Sie unter #65 (Kommentar).

Wenn Sie eine einzelne GPU verwenden (weil das Skript nicht mit DDP funktioniert) und Trainingsgeschwindigkeit und VRAM speichern möchten, können Sie dies tun (danke @korakoe für die Erstellung des Skripts bei #100):

accelerate launch --mixed_precision=fp16 --num_processes=1 train_finetune_accelerate.py --config_path ./Configs/config_ft.yml

Häufige Probleme

@Kreevoz hat detaillierte Notizen zu gemeinsamen Themen bei der Finetuning gemacht, mit Vorschlägen zur Maximierung der Audioqualität: #81. Einige davon gelten auch für das Training von Grund auf. @Iieleven11 hat auch eine Richtlinie für die Feinabstimmung erstellt: #128.

Aus dem Gedächtnis nach joint_epoch : Dies liegt wahrscheinlich daran, dass Ihr GPU -RAM nicht groß genug für SLM -Gegner -Trainingslauf ist. Sie können das überspringen, aber die Qualität könnte schlechter sein. Das Einstellen von joint_epoch Eine größere Zahl als epochs könnte das SLM -Advesariral -Training überspringen.

Schlussfolgerung

Weitere Informationen finden Sie unter Inference_LJSpeech.ipynb (Single-Speaker) und Inference_Libritts.ipynb (Multi-Laker). Für Libritts müssen Sie auch Reference_audio.zip herunterladen und unter der demo entpacken, bevor Sie die Demo ausführen.

Die vorgenannten Styletts 2 auf Ljspeech Corpus in 24 kHz können unter https://huggingface.co/yl4579/styletts2-ljspeech/tree/main heruntergeladen werden.
Das vorgefertigte Styletts 2-Modell auf Libritts kann unter https://huggingface.co/yl4579/styletts2-libritts/tree/main heruntergeladen werden.

Sie können Styletts 2 importieren und in Ihrem eigenen Code ausführen. Die Schlussfolgerung hängt jedoch von einem GPL-lizenzierten Paket ab, sodass sie nicht direkt in dieses Repository enthalten ist. Eine GPL-lizenzierte Gabel verfügt über ein importierbares Skript sowie eine experimentelle Streaming-API usw. Ein vollständig mit MIT-lizenziertes Paket, das Gruut verwendet (wenn auch aufgrund der Nichtübereinstimmung zwischen Phonemizer und Gruut) ist ebenfalls verfügbar.

Bevor Sie diese vorgebreiteten Modelle verwenden, erklären Sie sich damit einverstanden, die Zuhörer darüber zu informieren, dass die Sprachmuster von den vorgebauten Modellen synthetisiert werden, es sei denn, Sie haben die Erlaubnis, die von Ihnen synthetisierte Stimme zu verwenden. Das heißt, Sie erklären sich damit einverstanden, nur Stimmen zu verwenden, deren Sprecher der Erlaubnis erteilen, ihre Stimme entweder direkt oder durch Lizenz zu klonen, bevor Sie synthetisierte Stimmen öffentlich machen, oder Sie müssen öffentlich bekannt geben, dass diese Stimmen synthetisiert werden, wenn Sie nicht die Erlaubnis haben, diese Stimmen zu verwenden.

Häufige Probleme

Hochgerichtete Hintergrundgeräusche : Dies wird durch numerische Schwimmerunterschiede bei älteren GPUs verursacht. Weitere Informationen finden Sie in Ausgabe Nr. 13. Grundsätzlich müssen Sie modernere GPUs verwenden oder die CPUs Schlussfolgerung durchführen.
Vorausgebildete Modelllizenz : Sie müssen sich nur an die oben genannten Regeln halten, wenn Sie die vorgebauten Modelle verwenden und die Stimmen nicht im Trainingssatz sind, dh Ihre Referenzsprecher stammen nicht aus einem Datensatz für offene Zugriffs. Weitere Informationen zu Regeln für die Verwendung der vorgeborenen Modelle finden Sie in #37.

Referenzen

Archinetai/Audio-Diffusion-Pytorch
Jik876/Hifigan
Rishikksh20/Istftnet-Pytorch
Nii-Yamagishilab/Projekt-nn-Pytorch-Skripts/Projekt/01-NSF

Lizenz

Code: MIT -Lizenz

Vorausgebildete Modelle: Bevor Sie diese vorgebreiteten Modelle verwenden, erklären Sie sich damit einverstanden, den Zuhörern darüber zu informieren, dass die Sprachmuster von den vorgebreiteten Modellen synthetisiert werden, es sei denn, Sie haben die Erlaubnis, die von Ihnen synthetisierte Stimme zu verwenden. Das heißt, Sie erklären sich damit einverstanden, nur Stimmen zu verwenden, deren Sprecher der Erlaubnis erteilen, ihre Stimme entweder direkt oder durch Lizenz zu klonen, bevor Sie synthetisierte Stimmen öffentlich machen, oder Sie müssen öffentlich bekannt geben, dass diese Stimmen synthetisiert werden, wenn Sie nicht die Erlaubnis haben, diese Stimmen zu verwenden.

Expandieren

Zusätzliche Informationen