En nuestro artículo reciente proponemos el modelo YourTTS. YourTts trae la potencia de un enfoque multilingüe a la tarea de TTS múltiple de múltiples disparos. Nuestro método se basa en el modelo VITS y agrega varias modificaciones novedosas para el entrenamiento multi-disgusto y multilingüe. Logramos los resultados de última generación (SOTA) en TTS y resultados de múltiples disparos cero y resultados comparables a SOTA en conversión de voz de disparo cero en el conjunto de datos VCTK. Además, nuestro enfoque logra resultados prometedores en un lenguaje de destino con un conjunto de datos de un solo reventador, abriendo posibilidades para TTS de múltiples disparadores de cero y sistemas de conversión de voz de cero disparos en lenguajes de baja recursos. Finalmente, es posible ajustar el modelo suTTS con menos de 1 minuto de habla y lograr resultados de vanguardia en similitud de voz y con una calidad razonable. Esto es importante para permitir la síntesis de hablantes con una voz muy diferente o características de grabación de las observadas durante el entrenamiento.
En la Sección 2 del documento de su TTTS, hemos definido la función de pérdida de consistencia del altavoz (SCL). Además, hemos utilizado esta función de pérdida en 4 experimentos de ajuste fino en las Secciones 3 y 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL y Exp. 4 + SCL). Sin embargo, debido a un error de implementación, el gradiente de esta función de pérdida no se propagó para el modelo durante el entrenamiento. Significa que los experimentos de ajuste fino que utilizaron esta pérdida son equivalentes a capacitar al modelo para más pasos sin la pérdida de consistencia del altavoz. Este error fue descubierto por Tomáš Nekvinda e informó sobre el número 2348 del repositorio de Coqui TTS. Este error se solucionó en el número de solicitud de extracción 2364 en el repositorio de Coqui TTS. Actualmente, se soluciona para Coqui TTS versión v0.12.0 o superior. Nos gustaría agradecer a Tomáš Nekvinda por encontrar el error e informarlo.
Ven a probar nuestro último y mejor modelo de inglés completo, solo modelo https://coqui.ai/
Visite nuestro sitio web para ver muestras de audio.
Todos nuestros experimentos se implementaron en el repositorio de Coqui TTS.
| Manifestación | Url |
|---|---|
| TTS de disparo cero | enlace |
| VC de disparo cero | enlace |
| VC de disparo cero - Experimento 1 (entrenado con solo VCTK) | enlace |
Todos los puntos de control publicados tienen licencia bajo CC BY-NC-ND 4.0
| Modelo | Url |
|---|---|
| Codificador | enlace |
| Exp 1. Yourtts-en (VCTK) | No disponible |
| Exp 1. YourTts-en (VCTK) + SCL | enlace |
| Exp 2. YourTts-en (VCTK) -Pt | No disponible |
| Exp 2. Yourtts-en (VCTK) -PT + SCL | No disponible |
| Exp 3. YourTts-en (VCTK) -Pt-frr | No disponible |
| Exp 3. YourTts-en (VCTK) -PT-FR SCL | No disponible |
| Exp 4. YourTts-en (VCTK+Libritts) -Pt-Fr SCL | No disponible |
Para usar el? TTS versión v0.7.0 lanzó el modelo YourTTS para texto a voz Use el siguiente comando:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
Teniendo en cuenta el "Target_speaker_wav.wav" una muestra de audio del altavoz de destino.
Para usar el? TTS lanzó el modelo YourTTS para la conversión de voz Use el siguiente comando:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
Teniendo en cuenta el "Target_content_wav.wav" como el archivo de onda de referencia para convertir en la voz del altavoz "Target_speaker_wav.wav".
Para asegurar la replicabilidad, hacemos los audios utilizados para generar los MOS disponibles aquí. Además, proporcionamos el MOS para cada audio aquí.
Para volver a generar nuestros resultados de MOS, siga las instrucciones aquí. Para predecir las oraciones de prueba y generar las SEC, utilice los cuadernos Jupyter disponibles aquí.
Libritts (Test Clean): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 y 1089
VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 y P302
MLS portugués: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 y 1306
Para replicar completamente el Experimento 1, proporcionamos una receta en Coqui TTS. Esta receta descarga, vuelve a muestrear, extrae los incrustaciones del altavoz y entrena el modelo sin la necesidad de ningún cambio en el código.
El artículo se realizó con mi bifurcación Coqui TTS en la rama multilingüe-Torchaudio-SE.
Si desea utilizar la última versión del Coqui TTS, puede obtener el Config.json del modelo de COQUI lanzado.
Con config.json en la mano, primero debe cambiar la configuración de "conjuntos de datos" a su conjunto de datos. Usando el config.json con la configuración de "DataSets" ajustada, debe extraer los incrustaciones del altavoz utilizando nuestro codificador de altavoces lanzado usando el siguiente comando: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"Model_se.pth.tar" y "config_se.json" se pueden encontrar en el modelo lanzado de Coqui, mientras que config.json es la configuración para las que establece las rutas.
Otros parámetros que debe cambiar están en "config.json":
Ahora que tiene el Config.json configurado para replicar la capacitación, puede usar el siguiente comando (si lo desea, puede usar - -restore_path {checkpoint_path} para transferir el aprendizaje de un punto de control y acelerar el entrenamiento: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}