Téléchargement de YourTTS - Téléchargement du code source YourTTS

YourTTS

Code Source AI

MOS Samples

Télécharger

YourTTS: Vers des TT multi-uns-haut et une conversion vocale zéro-shot pour tout le monde

Dans notre article récent, nous proposons le modèle YOTTTS. YourTTS apporte la puissance d'une approche multilingue de la tâche de TTS multi-uns-haut à tirs zéro. Notre méthode s'appuie sur le modèle VITS et ajoute plusieurs nouvelles modifications pour une formation multilingue et multilingue à bouts zéro. Nous avons obtenu des résultats de pointe (SOTA) en TTS multi-uns-haut et résultats comparables à SOTA dans la conversion vocale de zéro sur l'ensemble de données VCTK. De plus, notre approche obtient des résultats prometteurs dans un langage cible avec un ensemble de données à un seul haut-parleur, des possibilités d'ouverture pour des systèmes de conversion vocale multi-uns-haut à tirs zéro dans des langages à faible ressource. Enfin, il est possible d'affiner le modèle YOTTTS avec moins d'une minute de discours et d'obtenir des résultats de pointe dans la similitude vocale et avec une qualité raisonnable. Ceci est important pour permettre la synthèse des locuteurs avec une voix ou des caractéristiques d'enregistrement très différentes de ceux observés pendant la formation.

Erratum

Dans la section 2 de votre article, nous avons défini la fonction de perte de cohérence du haut-parleur (SCL). De plus, nous avons utilisé cette fonction de perte sur 4 expériences de réglage fin dans les sections 3 et 4 (exp. 1 + SCL, exp. 2 + SCL, exp. 3 + SCL et exp. 4 + SCL). Cependant, en raison d'une erreur de mise en œuvre, le gradient de cette fonction de perte n'a pas été propagé pour le modèle pendant la formation. Cela signifie que les expériences de réglage fin qui ont utilisé cette perte sont équivalentes à la formation du modèle pour plus d'étapes sans la perte de cohérence du haut-parleur. Ce bogue a été découvert par Tomáš Nekvinda et rapporté sur le numéro 2348 du référentiel Coqui TTS. Ce bogue a été corrigé sur le numéro de demande de traction 2364 sur le référentiel Coqui TTS. Actuellement, il est fixé pour la version coqui tts V0.12.0 ou supérieure. Nous tenons à remercier Tomáš Nekvinda d'avoir trouvé le bug et de le signaler.

Version de production

Venez essayer notre dernier et meilleur modèle d'anglais en pleine bande uniquement https://coqui.ai/

Échantillons audios

Visitez notre site Web pour des échantillons audio.

Mise en œuvre

Toutes nos expériences ont été mises en œuvre sur le Repo Coqui TTS.

Démos de colab

Démo	URL
TTS zéro	lien
VC zéro-shot	lien
VC zéro-shot - Expérience 1 (formé avec juste VCTK)	lien

Points de contrôle

Tous les points de contrôle publiés sont licenciés sous CC By-NC-ND 4.0

Modèle	URL
Encodeur de haut-parleur	lien
Exp 1. Yourtts-en (vctk)	Pas disponible
Exp 1. Yourtts-en (vctk) + SCL	lien
Exp 2. Yourtts-en (vctk) -pt	Pas disponible
Exp 2. Yourtts-en (vctk) -pt + scl	Pas disponible
Exp 3. Yourtts-en (vctk) -pt-fr	Pas disponible
Exp 3. Yourtts-en (vctk) -pt-fr scl	Pas disponible
Exp 4. Yourtts-en (vctk + libritts) -pt-fr scl	Pas disponible

Coqui TTS a publié le modèle

Tts

Pour utiliser le? La version TTS V0.7.0 a publié le modèle YourTTS pour le texte-vocation Utilisez la commande suivante:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

Considérant le "Target_speaker_wav.wav" un échantillon audio du haut-parleur cible.

Conversion vocale

Pour utiliser le? TTS a publié le modèle de votre TTS pour la conversion vocale Utilisez la commande suivante:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

Considérant le "Target_Content_wav.wav" comme fichier d'onde de référence à convertir en la voix du haut-parleur "cible_speaker_wav.wav".

Réplicabilité des résultats

Pour assurer la réplicabilité, nous fabriquons les audios utilisés pour générer les MO disponibles ici. De plus, nous fournissons le MOS pour chaque audio ici.

Pour générer nos résultats MOS, suivez les instructions ici. Pour prédire les phrases de test et générer les SEC, veuillez utiliser les ordinateurs portables Jupyter disponibles ici.

Haut-parleurs de test:

Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 et 1089

VCTK: p261, p225, p294, p347, p238, p234, p248, p335, p245, p326 et p302

MLS Portugais: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 et 1306

Reproductibilité

Pour reproduire pleinement l'expérience 1, nous fournissons une recette sur les coquies. Cette recette télécharge, rééchantillonnant, extrait les intérêts du haut-parleur et forme le modèle sans avoir besoin de modifications du code.

L'article a été réalisé à l'aide de ma fourche coqui tts sur la branche multilingue-Torchaudio-se.

Si vous souhaitez utiliser la dernière version des Coqui TTS, vous pouvez obtenir la config.json à partir du modèle Coqui Sorti.

Avec config.json à la main, vous devez d'abord modifier la configuration des "ensembles de données" dans votre ensemble de données. En utilisant la configuration config.json avec la configuration "DataSets" ajusté, vous devez extraire les incorporations du haut-parleur à l'aide de notre encodeur de haut-parleur publié en utilisant la commande suivante: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"Model_se.pth.tar" et "config_se.json" se trouvent dans le modèle libéré Coqui tandis que config.json est la configuration pour laquelle vous définissez les chemins.

Les autres paramètres que vous devez modifier sont sur le "config.json":

"D_Vector_file": Maintenant que vous avez le fichier d'intégration du haut-parleur (d_vector_file.json) ajustez le paramètre "d_vector_file" sur le paramètre de configuration sur le chemin du fichier d'intégration du haut-parleur.
"output_path": le chemin pour enregistrer le point de contrôle et les journaux de formation
"Speaker_encoder_config_path": la configuration de l'encodeur de haut-parleur à utiliser pour calculer la perte de cohérence de similitude du cosinus / haut-parleur (définissez-le sur le chemin config_se.json)
"Speaker_encoder_model_path": le point de contrôle de l'encodeur de haut-parleur utilisé pour calculer le haut-parleur de la similitude du cosinus / perte de cohérence du haut-parleur (définissez-le sur le chemin "config_se.json")

Maintenant que vous avez la configuration de config.json pour reproduire la formation, vous pouvez utiliser la commande suivante (si vous aimez, vous pouvez utiliser le --restore_path {checkpoint_path} pour transférer l'apprentissage à partir d'un point de contrôle et accélérer la formation: python3 TTS/bin/train_tts.py --config_path config.json

Citation

Préimpression


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

Document publié sur ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

Développer

Informations supplémentaires

Version MOS Samples
Type Code Source AI
Date de mise à jour 2025-09-14
taille 94.83MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout