StyleTTS Download - StyleTTS Quellcode Download

StyleTTS

AI-Quellcode

1.0.0

Herunterladen

Styletts: Ein stilbasiertes generatives Modell für die natürliche und vielfältige Text-zu-Sprache-Synthese

Yinghao Aaron Li, Cong Han, Nima Mesgarani

Text-to-Speech (TTS) hat kürzlich große Fortschritte bei der Synthese von hochwertiger Sprache aufgrund der raschen Entwicklung paralleler TTS-Systeme verzeichnet, aber die Erzeugung von Sprache mit naturalistischen prosodischen Variationen, Sprechstilen und emotionalen Tönen bleibt eine Herausforderung. Da Dauer und Sprache getrennt erzeugt werden, haben parallele TTS -Modelle immer noch Probleme, die besten monotonischen Ausrichtungen zu finden, die für die naturalistische Sprachsynthese von entscheidender Bedeutung sind. Hier schlagen wir Styletts vor, ein stilbasiertes generatives Modell für parallele TTs, das verschiedene Sprache mit natürlicher Prosodie aus einer Referenzsprachäußerung synthetisieren kann. Mit neuartigen übertragbaren monotonischen Aligner (TMA) und Dauer-invarianten Datenvergrößerungsschemata übertrifft unsere Methode maßgeblich hochmoderne Modelle für einzelne und mehrsprachige Datensätze in subjektiven Tests der Sprachnatürlichkeit und der Ähnlichkeit der Lautsprecher. Durch das selbstbewertete Erlernen der Sprechstile kann unser Modell Sprache mit dem gleichen prosodischen und emotionalen Ton wie jede bestimmte Referenzrede synthetisieren, ohne dass diese Kategorien explizit kennzeichnet werden müssen.

Papier: https://arxiv.org/abs/2107.10394

Audio -Samples: https://styletts.github.io/

Voraussetzungen

Python> = 3,7
Klonen Sie dieses Repository:

git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTS

Installieren Sie die Python -Anforderungen:

pip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git

Laden Sie den LJSpeech -Datensatz herunter und extrahieren Sie sie in den Datenordner, und beleben Sie die Daten auf 24 kHz. Der Vocoder, der Textaligner und der Pitch-Extraktor sind auf 24 kHz-Daten vorgebracht, aber Sie können die Vorverarbeitung leicht ändern und mithilfe Ihrer eigenen Vorverarbeitung neu ausdehnen. Ich werde später mehr Empfänger und vorgeborene Modelle bereitstellen, wenn ich Zeit habe. Wenn Sie bereit sind zu helfen, können Sie gerne an anderen Vorverarbeitungsmethoden arbeiten. Für Libritts müssen Sie die Zug-Clean-360 mit Zug-Clean-100 kombinieren und die Ordner Train-Clean-460 umbenennen (siehe als Beispiel Val_List_libritts.txt).

Ausbildung

Training der ersten Stufe:

python train_first.py --config_path ./Configs/config.yml

Training der zweiten Stufe:

python train_second.py --config_path ./Configs/config.yml

Sie können beide nacheinander laufen und es wird sowohl die erste als auch die zweite Stufe trainieren. Das Modell wird im Format "epoch_1st_%05d.PTH" und "epoch_2nd_%05d.Pth" gespeichert. Checkpoints und Tensorboard -Protokolle werden unter log_dir gespeichert.

Das Datenlistenformat muss filename.wav|transcription sein.

Schlussfolgerung

Weitere Informationen finden Sie in Inferenz.IPynb.

Die vorgefertigten Styletts und Hifi -gan auf dem Ljspeech Corpus in 24 kHz können unter Styletts Link und Hifi-Gan-Link heruntergeladen werden.

Die vorgenannten Styletts und Hifi -gan auf Libritts Corpus können unter Styletts Link und Hifi-Gan-Link heruntergeladen werden. Sie müssen auch die Test-Clean von libritts herunterladen, wenn Sie die Null-Shot-Demo ausführen möchten.

Bitte entpacken Sie auf Models und Vocoder -Effekte und führen Sie jede Zelle im Notebook aus. Sie müssen auch Phonemizer installieren, um diese Inferenzdemo auszuführen.

Vorverarbeitung

Die vorbereiteten Modelle aus dem Text- und Tonhöhenextraktor werden unter dem Ordner Utils bereitgestellt. Sowohl der Text Aligner- als auch der Pitch -Extraktormodelle werden mit Melspectratrogrammen trainiert, die unter Verwendung von Meldataset.py vorverarbeitet werden.

Sie können den Meldataset.py mit Ihrem eigenen Melspectratrogram -Vorverarbeitung bearbeiten, aber die bereitgestellten Modelle funktionieren nicht mehr. Sie müssen Ihren eigenen Text -Aligner und den Pitch -Extraktor mit der neuen Vorverarbeitung trainieren.

Der Code for Training New Text Aligner -Modell ist hier verfügbar und der für das Training neuer Pitch -Extraktor -Modelle ist hier verfügbar.

Ich werde in Zukunft mehr Empfänge mit vorhandenem Vorverarbeitungsbetrag bieten, wie sie in der offiziellen Hifigan und ESPNET in der Zukunft, wenn ich zusätzliche Zeit habe. Wenn Sie bereit sind, zu helfen, können Sie gerne mit ESPNET Empfänger vornehmen.

Expandieren

Zusätzliche Informationen