Descargar YourTTS - Descarga del código fuente YourTTS

YourTTS

Código Fuente de IA

MOS Samples

Descargar

YourTts: hacia TTS de múltiples disparadores cero y conversión de voz de disparo cero para todos

En nuestro artículo reciente proponemos el modelo YourTTS. YourTts trae la potencia de un enfoque multilingüe a la tarea de TTS múltiple de múltiples disparos. Nuestro método se basa en el modelo VITS y agrega varias modificaciones novedosas para el entrenamiento multi-disgusto y multilingüe. Logramos los resultados de última generación (SOTA) en TTS y resultados de múltiples disparos cero y resultados comparables a SOTA en conversión de voz de disparo cero en el conjunto de datos VCTK. Además, nuestro enfoque logra resultados prometedores en un lenguaje de destino con un conjunto de datos de un solo reventador, abriendo posibilidades para TTS de múltiples disparadores de cero y sistemas de conversión de voz de cero disparos en lenguajes de baja recursos. Finalmente, es posible ajustar el modelo suTTS con menos de 1 minuto de habla y lograr resultados de vanguardia en similitud de voz y con una calidad razonable. Esto es importante para permitir la síntesis de hablantes con una voz muy diferente o características de grabación de las observadas durante el entrenamiento.

Errata

En la Sección 2 del documento de su TTTS, hemos definido la función de pérdida de consistencia del altavoz (SCL). Además, hemos utilizado esta función de pérdida en 4 experimentos de ajuste fino en las Secciones 3 y 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL y Exp. 4 + SCL). Sin embargo, debido a un error de implementación, el gradiente de esta función de pérdida no se propagó para el modelo durante el entrenamiento. Significa que los experimentos de ajuste fino que utilizaron esta pérdida son equivalentes a capacitar al modelo para más pasos sin la pérdida de consistencia del altavoz. Este error fue descubierto por Tomáš Nekvinda e informó sobre el número 2348 del repositorio de Coqui TTS. Este error se solucionó en el número de solicitud de extracción 2364 en el repositorio de Coqui TTS. Actualmente, se soluciona para Coqui TTS versión v0.12.0 o superior. Nos gustaría agradecer a Tomáš Nekvinda por encontrar el error e informarlo.

Versión de producción

Ven a probar nuestro último y mejor modelo de inglés completo, solo modelo https://coqui.ai/

Muestras de audios

Visite nuestro sitio web para ver muestras de audio.

Implementación

Todos nuestros experimentos se implementaron en el repositorio de Coqui TTS.

COLAB Demoss

Manifestación	Url
TTS de disparo cero	enlace
VC de disparo cero	enlace
VC de disparo cero - Experimento 1 (entrenado con solo VCTK)	enlace

Puntos de control

Todos los puntos de control publicados tienen licencia bajo CC BY-NC-ND 4.0

Modelo	Url
Codificador	enlace
Exp 1. Yourtts-en (VCTK)	No disponible
Exp 1. YourTts-en (VCTK) + SCL	enlace
Exp 2. YourTts-en (VCTK) -Pt	No disponible
Exp 2. Yourtts-en (VCTK) -PT + SCL	No disponible
Exp 3. YourTts-en (VCTK) -Pt-frr	No disponible
Exp 3. YourTts-en (VCTK) -PT-FR SCL	No disponible
Exp 4. YourTts-en (VCTK+Libritts) -Pt-Fr SCL	No disponible

Modelo lanzado de Coqui TTS

TTS

Para usar el? TTS versión v0.7.0 lanzó el modelo YourTTS para texto a voz Use el siguiente comando:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

Teniendo en cuenta el "Target_speaker_wav.wav" una muestra de audio del altavoz de destino.

Conversión de voz

Para usar el? TTS lanzó el modelo YourTTS para la conversión de voz Use el siguiente comando:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

Teniendo en cuenta el "Target_content_wav.wav" como el archivo de onda de referencia para convertir en la voz del altavoz "Target_speaker_wav.wav".

Resultados replicabilidad

Para asegurar la replicabilidad, hacemos los audios utilizados para generar los MOS disponibles aquí. Además, proporcionamos el MOS para cada audio aquí.

Para volver a generar nuestros resultados de MOS, siga las instrucciones aquí. Para predecir las oraciones de prueba y generar las SEC, utilice los cuadernos Jupyter disponibles aquí.

Probas de prueba:

Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 y 1089

VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 y P302

MLS portugués: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 y 1306

Reproducibilidad

Para replicar completamente el Experimento 1, proporcionamos una receta en Coqui TTS. Esta receta descarga, vuelve a muestrear, extrae los incrustaciones del altavoz y entrena el modelo sin la necesidad de ningún cambio en el código.

El artículo se realizó con mi bifurcación Coqui TTS en la rama multilingüe-Torchaudio-SE.

Si desea utilizar la última versión del Coqui TTS, puede obtener el Config.json del modelo de COQUI lanzado.

Con config.json en la mano, primero debe cambiar la configuración de "conjuntos de datos" a su conjunto de datos. Usando el config.json con la configuración de "DataSets" ajustada, debe extraer los incrustaciones del altavoz utilizando nuestro codificador de altavoces lanzado usando el siguiente comando: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"Model_se.pth.tar" y "config_se.json" se pueden encontrar en el modelo lanzado de Coqui, mientras que config.json es la configuración para las que establece las rutas.

Otros parámetros que debe cambiar están en "config.json":

"D_vector_file": ahora que tiene el archivo de incrustación del altavoz (d_vector_file.json) ajuste el parámetro "d_vector_file" en la configuración de configuración en la ruta del archivo de incrustación del altavoz.
"output_path": la ruta para guardar el punto de control y los registros de entrenamiento
"Speaker_encoder_config_path": la configuración del codificador del altavoz que se utilizará para calcular la pérdida de similitud de similitud/altavoz del altavoz (configure la ruta config_se.json)
"Speaker_encoder_model_path": el punto de control del codificador del altavoz utilizado para calcular la pérdida de similitud de similitud/altavoz del altavoz (establecerlo en la ruta "config_se.json")

Ahora que tiene el Config.json configurado para replicar la capacitación, puede usar el siguiente comando (si lo desea, puede usar - -restore_path {checkpoint_path} para transferir el aprendizaje de un punto de control y acelerar el entrenamiento: python3 TTS/bin/train_tts.py --config_path config.json

Citación

Preimpresión


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

Documento publicado en ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

Expandir

Información adicional

Versión MOS Samples
Tipo Código Fuente de IA
Fecha de actualización 2025-09-14
tamaño 94.83MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo