Text-to-Speech (TTS) hat kürzlich große Fortschritte bei der Synthese von hochwertiger Sprache aufgrund der raschen Entwicklung paralleler TTS-Systeme verzeichnet, aber die Erzeugung von Sprache mit naturalistischen prosodischen Variationen, Sprechstilen und emotionalen Tönen bleibt eine Herausforderung. Da Dauer und Sprache getrennt erzeugt werden, haben parallele TTS -Modelle immer noch Probleme, die besten monotonischen Ausrichtungen zu finden, die für die naturalistische Sprachsynthese von entscheidender Bedeutung sind. Hier schlagen wir Styletts vor, ein stilbasiertes generatives Modell für parallele TTs, das verschiedene Sprache mit natürlicher Prosodie aus einer Referenzsprachäußerung synthetisieren kann. Mit neuartigen übertragbaren monotonischen Aligner (TMA) und Dauer-invarianten Datenvergrößerungsschemata übertrifft unsere Methode maßgeblich hochmoderne Modelle für einzelne und mehrsprachige Datensätze in subjektiven Tests der Sprachnatürlichkeit und der Ähnlichkeit der Lautsprecher. Durch das selbstbewertete Erlernen der Sprechstile kann unser Modell Sprache mit dem gleichen prosodischen und emotionalen Ton wie jede bestimmte Referenzrede synthetisieren, ohne dass diese Kategorien explizit kennzeichnet werden müssen.
Papier: https://arxiv.org/abs/2107.10394
Audio -Samples: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitTraining der ersten Stufe:
python train_first.py --config_path ./Configs/config.ymlTraining der zweiten Stufe:
python train_second.py --config_path ./Configs/config.yml Sie können beide nacheinander laufen und es wird sowohl die erste als auch die zweite Stufe trainieren. Das Modell wird im Format "epoch_1st_%05d.PTH" und "epoch_2nd_%05d.Pth" gespeichert. Checkpoints und Tensorboard -Protokolle werden unter log_dir gespeichert.
Das Datenlistenformat muss filename.wav|transcription sein.
Weitere Informationen finden Sie in Inferenz.IPynb.
Die vorgefertigten Styletts und Hifi -gan auf dem Ljspeech Corpus in 24 kHz können unter Styletts Link und Hifi-Gan-Link heruntergeladen werden.
Die vorgenannten Styletts und Hifi -gan auf Libritts Corpus können unter Styletts Link und Hifi-Gan-Link heruntergeladen werden. Sie müssen auch die Test-Clean von libritts herunterladen, wenn Sie die Null-Shot-Demo ausführen möchten.
Bitte entpacken Sie auf Models und Vocoder -Effekte und führen Sie jede Zelle im Notebook aus. Sie müssen auch Phonemizer installieren, um diese Inferenzdemo auszuführen.
Die vorbereiteten Modelle aus dem Text- und Tonhöhenextraktor werden unter dem Ordner Utils bereitgestellt. Sowohl der Text Aligner- als auch der Pitch -Extraktormodelle werden mit Melspectratrogrammen trainiert, die unter Verwendung von Meldataset.py vorverarbeitet werden.
Sie können den Meldataset.py mit Ihrem eigenen Melspectratrogram -Vorverarbeitung bearbeiten, aber die bereitgestellten Modelle funktionieren nicht mehr. Sie müssen Ihren eigenen Text -Aligner und den Pitch -Extraktor mit der neuen Vorverarbeitung trainieren.
Der Code for Training New Text Aligner -Modell ist hier verfügbar und der für das Training neuer Pitch -Extraktor -Modelle ist hier verfügbar.
Ich werde in Zukunft mehr Empfänge mit vorhandenem Vorverarbeitungsbetrag bieten, wie sie in der offiziellen Hifigan und ESPNET in der Zukunft, wenn ich zusätzliche Zeit habe. Wenn Sie bereit sind, zu helfen, können Sie gerne mit ESPNET Empfänger vornehmen.