Esta é uma extensão simples para a geração de texto-webui que permite TTS multilíngue, com clonagem de voz usando XTTSV2 de Coqui-AI/TTS.
XTTSV2 agora está incorporado em geração de texto-webui (coqui_tts). Ainda posso atualizar essa extensão para o recurso Narrador, mas se você não se importa com isso, use a extensão oficial.
Esta é uma extensão muito grosseira que joguei rapidamente com base na extensão de Barktts. Pode ou não funcionar. Sinta -se à vontade para melhorar o código e enviar um PR.
Ative seu ambiente executando cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.bat , dependendo da sua plataforma ou ative seu ambiente CONDA se você o instalar manualmente. Clone este repo:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
Instale dependências para TTS.
cd text_generation_webui_xtts
pip install -r requirements.txt
Instale o TTS. Os requisitos da versão deles causam problemas, portanto, instalamos as dependências acima, sem os requisitos da versão.
pip install TTS --no-dependencies
Depois de terminar as etapas acima, você pode adicionar algumas vozes à pasta Voices. Isso pode ser um clipe de ondulação curto (3-6 segundos) de alguém falando. Verifique se é áudio de alta qualidade sem lacunas longas. Em seguida, execute o Webui com --extensions text_generation_webui_xtts e selecione sua voz/idioma e outras configurações na parte inferior. Talvez você precise aceitar os termos e condições através do console quando você o executa pela primeira vez.