Esta es una extensión simple para el texto de generación de texto que permite TTS multilingüe, con clonación de voz usando XTTSV2 de Coqui-AI/TTS.
XTTSV2 ahora está integrado en Text-Generation-Webui (Coqui_TTS). Todavía podría actualizar esta extensión para la función Narradora, pero si no le importa, use la extensión oficial.
Esta es una extensión muy cruda que arrojé rápidamente según la extensión de Barktts. Puede o no funcionar. Siéntase libre de mejorar el código y enviar un PR.
Active su entorno ejecutando cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.bat dependiendo de su plataforma, o active su entorno de condena si lo instaló manualmente. Clon este repositorio:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
Instalar dependencias para TTS.
cd text_generation_webui_xtts
pip install -r requirements.txt
Instalar TTS. Los requisitos de su versión causan problemas, por lo que instalamos las dependencias anteriores, sin los requisitos de la versión.
pip install TTS --no-dependencies
Una vez que haya terminado los pasos de arriba, puede agregar algunas voces a la carpeta Voices. Este puede ser cualquier clip breve (3-6 segundos) de alguien que habla. Asegúrese de que sea audio de alta calidad sin brechas largas. Luego, ejecute WebUI con --extensions text_generation_webui_xtts y seleccione su voz/idioma y otras configuraciones en la parte inferior. Es posible que deba aceptar los términos y condiciones a través de la consola cuando la ejecute por primera vez.