In unserem jüngsten Artikel schlagen wir das YOUTTS -Modell vor. Yourtts bringt die Leistung eines mehrsprachigen Ansatzes zur Aufgabe von Null-Shot-Multi-Sprecher-TTs mit. Unsere Methode baut auf dem Vits-Modell auf und fügt mehrere neuartige Modifikationen für Null-Shot-Multi-Sprecher und mehrsprachiges Training hinzu. Wir haben die Ergebnisse des neuesten Stand der Technik (SOTA) zu Null-Shot-Multi-Sprecher-TTs und Ergebnissen erzielt, die mit SOTA in der Null-Shot-Sprachumwandlung im VCTK-Datensatz vergleichbar sind. Darüber hinaus erzielt unser Ansatz vielversprechende Ergebnisse in einer Zielsprache mit einem einzelnen Sprecher-Datensatz und öffnet Möglichkeiten für TTs mit Multi-Sprechern und Sprachkonvertierungssystemen mit Null-Shot-Sprache in Sprachen mit niedrigem Ressourcen. Schließlich ist es möglich, das YOUTTS-Modell mit weniger als 1 Minute Sprache zu optimieren und hochmoderne Ergebnisse in Sprachähnlichkeit und mit angemessener Qualität zu erreichen. Dies ist wichtig, um Synthese für Sprecher mit einer ganz anderen Stimme oder Aufzeichnungseigenschaften als die während des Trainings zu sehen.
In Abschnitt 2 von Yourtts Paper haben wir die SCL -Funktion (Lautsprecherkonsistenzverlust) definiert. Darüber hinaus haben wir diese Verlustfunktion für 4 Feinabstimmungsexperimente in den Abschnitten 3 und 4 verwendet (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL und Exp. 4 + SCL). Aufgrund eines Implementierungsfehlers wurde jedoch der Gradient dieser Verlustfunktion während des Trainings nicht für das Modell propagiert. Dies bedeutet, dass die Feinabstimmungsexperimente, die diesen Verlust verwendeten, dem Modell für weitere Schritte ohne den Verlust der Sprecherkonsistenz entspricht. Dieser Fehler wurde von Tomáš Nekvinda entdeckt und über die Ausgabe Nummer 2348 des Coqui TTS -Repositorys gemeldet. Dieser Fehler wurde auf der Pull -Anforderungsnummer 2364 im Coqui TTS -Repository behoben. Derzeit ist es für Coqui TTS -Version v0.12.0 oder höher festgelegt. Wir möchten Tomáš Nekvinda dafür danken, dass sie den Fehler gefunden und gemeldet haben.
Probieren Sie unser neuestes und das größte Modell für das englische Fullband -englisches Modell https://coqui.ai/
Besuchen Sie unsere Website für Audio -Beispiele.
Alle unsere Experimente wurden im Coqui TTS -Repo implementiert.
| Demo | URL |
|---|---|
| Null-Shot-TTs | Link |
| Null-Shot VC | Link |
| Null -Shot VC - Experiment 1 (trainiert mit nur VCTK) | Link |
Alle freigegebenen Kontrollpunkte sind unter CC BY-NC-ND 4.0 lizenziert
| Modell | URL |
|---|---|
| Sprecher -Encoder | Link |
| Exp 1. yourtts-en (vctk) | Nicht verfügbar |
| Exp 1. yourtts-en (vctk) + scl | Link |
| Exp 2. yourtts-en (vctk) -Pt | Nicht verfügbar |
| Exp 2. yourtts-en (vctk) -Pt + scl | Nicht verfügbar |
| Exp 3. | Nicht verfügbar |
| Exp 3.. | Nicht verfügbar |
| Exp 4.. | Nicht verfügbar |
Das verwenden? TTS-Version v0.7.0 Veröffentlicht Ihr TTSS-Modell für Text-zu-Sprache Verwenden Sie den folgenden Befehl:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
Berücksichtigen Sie die "target_speaker_wav.wav" ein Audio -Beispiel aus dem Ziellautsprecher.
Das verwenden? TTS veröffentlicht Ihr TTTS -Modell für die Sprachumwandlung Verwenden Sie den folgenden Befehl:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
Betrachten Sie die "target_content_wav.wav" als Referenzwellendatei, um in die Stimme des Sprechers "target_speaker_wav.wav" umzuwandeln.
Um die Reproduzierbarkeit zu gewährleisten, machen wir die Audios, mit denen die hier verfügbaren MOs verfügbar sind. Darüber hinaus stellen wir hier die MOS für jeden Audio zur Verfügung.
Um unsere MOS-Ergebnisse erneut zu generieren, befolgen Sie hier die Anweisungen. Um die Testsätze vorherzusagen und die SECs zu generieren, verwenden Sie bitte die hier verfügbaren Jupyter -Notizbücher.
Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 und 1089
VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 und P302
MLS Portugiesisch: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 und 1306
Um Experiment 1 vollständig zu replizieren, liefern wir ein Rezept für Coqui TTs. Dieses Rezept lädt den Lautsprecher -Emettings herunter, extrahiert das Modell, ohne dass Änderungen im Code erforderlich sind.
Der Artikel wurde mit meiner Coqui TTS-Gabel auf dem Zweig mehrsprachigen Torchaudio-se erstellt.
Wenn Sie die neueste Version der Coqui TTS verwenden möchten, können Sie die config.json vom Coqui veröffentlicht.
Mit config.json in der Hand müssen Sie zunächst die Konfiguration "Datensätze" in Ihren Datensatz ändern. Using the config.json with the "datasets" configuration adjusted you need to extract the speaker's embeddings using our released speaker encoder using the following command: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"model_se.pth.tar" und "config_se.json" finden Sie im Coqui -Veröffentlichungsmodell, während config.json die Konfiguration ist, für die Sie die Pfade festlegen.
Weitere Parameter, die Sie ändern sollten, befinden sich auf der "config.json":
Nachdem Sie die config.json so konfigurieren lassen, dass Sie das Training replizieren können, können Sie den folgenden Befehl verwenden (wenn Sie möchten, können Sie das -restore_path {Checkpoint_path} verwenden, um das Lernen aus einem Kontrollpunkt zu übertragen und das Training zu beschleunigen: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}