YourTTS Download - YourTTS Quellcode Download

YourTTS

AI-Quellcode

MOS Samples

Herunterladen

Yourtts: Auf dem Weg zu Null-Shot-Multi-Sprecher-TTs und Null-Shot-Sprachumwandlung für alle

In unserem jüngsten Artikel schlagen wir das YOUTTS -Modell vor. Yourtts bringt die Leistung eines mehrsprachigen Ansatzes zur Aufgabe von Null-Shot-Multi-Sprecher-TTs mit. Unsere Methode baut auf dem Vits-Modell auf und fügt mehrere neuartige Modifikationen für Null-Shot-Multi-Sprecher und mehrsprachiges Training hinzu. Wir haben die Ergebnisse des neuesten Stand der Technik (SOTA) zu Null-Shot-Multi-Sprecher-TTs und Ergebnissen erzielt, die mit SOTA in der Null-Shot-Sprachumwandlung im VCTK-Datensatz vergleichbar sind. Darüber hinaus erzielt unser Ansatz vielversprechende Ergebnisse in einer Zielsprache mit einem einzelnen Sprecher-Datensatz und öffnet Möglichkeiten für TTs mit Multi-Sprechern und Sprachkonvertierungssystemen mit Null-Shot-Sprache in Sprachen mit niedrigem Ressourcen. Schließlich ist es möglich, das YOUTTS-Modell mit weniger als 1 Minute Sprache zu optimieren und hochmoderne Ergebnisse in Sprachähnlichkeit und mit angemessener Qualität zu erreichen. Dies ist wichtig, um Synthese für Sprecher mit einer ganz anderen Stimme oder Aufzeichnungseigenschaften als die während des Trainings zu sehen.

Erratum

In Abschnitt 2 von Yourtts Paper haben wir die SCL -Funktion (Lautsprecherkonsistenzverlust) definiert. Darüber hinaus haben wir diese Verlustfunktion für 4 Feinabstimmungsexperimente in den Abschnitten 3 und 4 verwendet (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL und Exp. 4 + SCL). Aufgrund eines Implementierungsfehlers wurde jedoch der Gradient dieser Verlustfunktion während des Trainings nicht für das Modell propagiert. Dies bedeutet, dass die Feinabstimmungsexperimente, die diesen Verlust verwendeten, dem Modell für weitere Schritte ohne den Verlust der Sprecherkonsistenz entspricht. Dieser Fehler wurde von Tomáš Nekvinda entdeckt und über die Ausgabe Nummer 2348 des Coqui TTS -Repositorys gemeldet. Dieser Fehler wurde auf der Pull -Anforderungsnummer 2364 im Coqui TTS -Repository behoben. Derzeit ist es für Coqui TTS -Version v0.12.0 oder höher festgelegt. Wir möchten Tomáš Nekvinda dafür danken, dass sie den Fehler gefunden und gemeldet haben.

Produktionsversion

Probieren Sie unser neuestes und das größte Modell für das englische Fullband -englisches Modell https://coqui.ai/

Audios -Samples

Besuchen Sie unsere Website für Audio -Beispiele.

Durchführung

Alle unsere Experimente wurden im Coqui TTS -Repo implementiert.

Colab Demos

Demo	URL
Null-Shot-TTs	Link
Null-Shot VC	Link
Null -Shot VC - Experiment 1 (trainiert mit nur VCTK)	Link

Kontrollpunkte

Alle freigegebenen Kontrollpunkte sind unter CC BY-NC-ND 4.0 lizenziert

Modell	URL
Sprecher -Encoder	Link
Exp 1. yourtts-en (vctk)	Nicht verfügbar
Exp 1. yourtts-en (vctk) + scl	Link
Exp 2. yourtts-en (vctk) -Pt	Nicht verfügbar
Exp 2. yourtts-en (vctk) -Pt + scl	Nicht verfügbar
Exp 3.	Nicht verfügbar
Exp 3..	Nicht verfügbar
Exp 4..	Nicht verfügbar

Coqui TTS veröffentlichte Modell

TTS

Das verwenden? TTS-Version v0.7.0 Veröffentlicht Ihr TTSS-Modell für Text-zu-Sprache Verwenden Sie den folgenden Befehl:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

Berücksichtigen Sie die "target_speaker_wav.wav" ein Audio -Beispiel aus dem Ziellautsprecher.

Sprachumwandlung

Das verwenden? TTS veröffentlicht Ihr TTTS -Modell für die Sprachumwandlung Verwenden Sie den folgenden Befehl:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

Betrachten Sie die "target_content_wav.wav" als Referenzwellendatei, um in die Stimme des Sprechers "target_speaker_wav.wav" umzuwandeln.

Ergebnisse Replikabilität

Um die Reproduzierbarkeit zu gewährleisten, machen wir die Audios, mit denen die hier verfügbaren MOs verfügbar sind. Darüber hinaus stellen wir hier die MOS für jeden Audio zur Verfügung.

Um unsere MOS-Ergebnisse erneut zu generieren, befolgen Sie hier die Anweisungen. Um die Testsätze vorherzusagen und die SECs zu generieren, verwenden Sie bitte die hier verfügbaren Jupyter -Notizbücher.

Testredner:

Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 und 1089

VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 und P302

MLS Portugiesisch: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 und 1306

Reproduzierbarkeit

Um Experiment 1 vollständig zu replizieren, liefern wir ein Rezept für Coqui TTs. Dieses Rezept lädt den Lautsprecher -Emettings herunter, extrahiert das Modell, ohne dass Änderungen im Code erforderlich sind.

Der Artikel wurde mit meiner Coqui TTS-Gabel auf dem Zweig mehrsprachigen Torchaudio-se erstellt.

Wenn Sie die neueste Version der Coqui TTS verwenden möchten, können Sie die config.json vom Coqui veröffentlicht.

Mit config.json in der Hand müssen Sie zunächst die Konfiguration "Datensätze" in Ihren Datensatz ändern. Using the config.json with the "datasets" configuration adjusted you need to extract the speaker's embeddings using our released speaker encoder using the following command: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"model_se.pth.tar" und "config_se.json" finden Sie im Coqui -Veröffentlichungsmodell, während config.json die Konfiguration ist, für die Sie die Pfade festlegen.

Weitere Parameter, die Sie ändern sollten, befinden sich auf der "config.json":

"D_Vector_file": Jetzt, da Sie die Lautsprecher -Einbettungsdatei (d_Vector_file.json) haben, passen Sie den Parameter "d_Vector_file" auf der Konfigurationseinstellung zum Pfad des Lautsprecher -Einbettungsdatei an.
"output_path": Der Pfad zum Speichern der Checkpoint- und Trainingsprotokolle
"Speaker_encoder_config_path": Die Lautsprecher -Encoder -Konfiguration zum Berechnen des Lautsprecher -Cosinus -Ähnlichkeits -Verlusts/Lautsprecherkonsistenzverlusts (setzen Sie ihn auf den Pfad config_se.json)
"Speaker_encoder_model_path": Der Checkpoint des Lautsprecher -Encoders, der zum Berechnen des Lautsprecher -Cosinus -Ähnlichkeits -Verlusts/Lautsprecher -Konsistenzverlusts verwendet wird (setzen Sie ihn auf den Pfad "config_se.json")

Nachdem Sie die config.json so konfigurieren lassen, dass Sie das Training replizieren können, können Sie den folgenden Befehl verwenden (wenn Sie möchten, können Sie das -restore_path {Checkpoint_path} verwenden, um das Lernen aus einem Kontrollpunkt zu übertragen und das Training zu beschleunigen: python3 TTS/bin/train_tts.py --config_path config.json

Zitat

Vordruck


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

Veröffentlichtes Papier bei ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

Expandieren

Zusätzliche Informationen