Dans notre article récent, nous proposons le modèle YOTTTS. YourTTS apporte la puissance d'une approche multilingue de la tâche de TTS multi-uns-haut à tirs zéro. Notre méthode s'appuie sur le modèle VITS et ajoute plusieurs nouvelles modifications pour une formation multilingue et multilingue à bouts zéro. Nous avons obtenu des résultats de pointe (SOTA) en TTS multi-uns-haut et résultats comparables à SOTA dans la conversion vocale de zéro sur l'ensemble de données VCTK. De plus, notre approche obtient des résultats prometteurs dans un langage cible avec un ensemble de données à un seul haut-parleur, des possibilités d'ouverture pour des systèmes de conversion vocale multi-uns-haut à tirs zéro dans des langages à faible ressource. Enfin, il est possible d'affiner le modèle YOTTTS avec moins d'une minute de discours et d'obtenir des résultats de pointe dans la similitude vocale et avec une qualité raisonnable. Ceci est important pour permettre la synthèse des locuteurs avec une voix ou des caractéristiques d'enregistrement très différentes de ceux observés pendant la formation.
Dans la section 2 de votre article, nous avons défini la fonction de perte de cohérence du haut-parleur (SCL). De plus, nous avons utilisé cette fonction de perte sur 4 expériences de réglage fin dans les sections 3 et 4 (exp. 1 + SCL, exp. 2 + SCL, exp. 3 + SCL et exp. 4 + SCL). Cependant, en raison d'une erreur de mise en œuvre, le gradient de cette fonction de perte n'a pas été propagé pour le modèle pendant la formation. Cela signifie que les expériences de réglage fin qui ont utilisé cette perte sont équivalentes à la formation du modèle pour plus d'étapes sans la perte de cohérence du haut-parleur. Ce bogue a été découvert par Tomáš Nekvinda et rapporté sur le numéro 2348 du référentiel Coqui TTS. Ce bogue a été corrigé sur le numéro de demande de traction 2364 sur le référentiel Coqui TTS. Actuellement, il est fixé pour la version coqui tts V0.12.0 ou supérieure. Nous tenons à remercier Tomáš Nekvinda d'avoir trouvé le bug et de le signaler.
Venez essayer notre dernier et meilleur modèle d'anglais en pleine bande uniquement https://coqui.ai/
Visitez notre site Web pour des échantillons audio.
Toutes nos expériences ont été mises en œuvre sur le Repo Coqui TTS.
| Démo | URL |
|---|---|
| TTS zéro | lien |
| VC zéro-shot | lien |
| VC zéro-shot - Expérience 1 (formé avec juste VCTK) | lien |
Tous les points de contrôle publiés sont licenciés sous CC By-NC-ND 4.0
| Modèle | URL |
|---|---|
| Encodeur de haut-parleur | lien |
| Exp 1. Yourtts-en (vctk) | Pas disponible |
| Exp 1. Yourtts-en (vctk) + SCL | lien |
| Exp 2. Yourtts-en (vctk) -pt | Pas disponible |
| Exp 2. Yourtts-en (vctk) -pt + scl | Pas disponible |
| Exp 3. Yourtts-en (vctk) -pt-fr | Pas disponible |
| Exp 3. Yourtts-en (vctk) -pt-fr scl | Pas disponible |
| Exp 4. Yourtts-en (vctk + libritts) -pt-fr scl | Pas disponible |
Pour utiliser le? La version TTS V0.7.0 a publié le modèle YourTTS pour le texte-vocation Utilisez la commande suivante:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
Considérant le "Target_speaker_wav.wav" un échantillon audio du haut-parleur cible.
Pour utiliser le? TTS a publié le modèle de votre TTS pour la conversion vocale Utilisez la commande suivante:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
Considérant le "Target_Content_wav.wav" comme fichier d'onde de référence à convertir en la voix du haut-parleur "cible_speaker_wav.wav".
Pour assurer la réplicabilité, nous fabriquons les audios utilisés pour générer les MO disponibles ici. De plus, nous fournissons le MOS pour chaque audio ici.
Pour générer nos résultats MOS, suivez les instructions ici. Pour prédire les phrases de test et générer les SEC, veuillez utiliser les ordinateurs portables Jupyter disponibles ici.
Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 et 1089
VCTK: p261, p225, p294, p347, p238, p234, p248, p335, p245, p326 et p302
MLS Portugais: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 et 1306
Pour reproduire pleinement l'expérience 1, nous fournissons une recette sur les coquies. Cette recette télécharge, rééchantillonnant, extrait les intérêts du haut-parleur et forme le modèle sans avoir besoin de modifications du code.
L'article a été réalisé à l'aide de ma fourche coqui tts sur la branche multilingue-Torchaudio-se.
Si vous souhaitez utiliser la dernière version des Coqui TTS, vous pouvez obtenir la config.json à partir du modèle Coqui Sorti.
Avec config.json à la main, vous devez d'abord modifier la configuration des "ensembles de données" dans votre ensemble de données. En utilisant la configuration config.json avec la configuration "DataSets" ajusté, vous devez extraire les incorporations du haut-parleur à l'aide de notre encodeur de haut-parleur publié en utilisant la commande suivante: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"Model_se.pth.tar" et "config_se.json" se trouvent dans le modèle libéré Coqui tandis que config.json est la configuration pour laquelle vous définissez les chemins.
Les autres paramètres que vous devez modifier sont sur le "config.json":
Maintenant que vous avez la configuration de config.json pour reproduire la formation, vous pouvez utiliser la commande suivante (si vous aimez, vous pouvez utiliser le --restore_path {checkpoint_path} pour transférer l'apprentissage à partir d'un point de contrôle et accélérer la formation: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}