Il s'agit d'une simple extension pour la génération de texte-webui qui permet des TT multilingues, avec un clonage vocal utilisant XTSTV2 de Coqui-AI / TTS.
XTSTV2 est désormais intégré à la génération de texte-webui (coqui_tts). Je pourrais toujours mettre à jour cette extension pour la fonctionnalité du narrateur, mais si vous ne vous souciez pas de cela, utilisez l'extension officielle.
Il s'agit d'une extension très brute que j'ai lancé rapidement en fonction de l'extension Barktts. Cela peut ou non fonctionner. N'hésitez pas à améliorer le code et à soumettre un PR.
Activez votre environnement en exécutant cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.bat en fonction de votre plate-forme, ou activez votre environnement conda si vous l'avez installé manuellement. Cloner ce repo:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
Installez les dépendances pour TTS.
cd text_generation_webui_xtts
pip install -r requirements.txt
Installez TTS. Leurs exigences de version entraînent des problèmes, nous installons donc les dépendances ci-dessus, sans exigences de version.
pip install TTS --no-dependencies
Une fois que vous avez terminé les étapes ci-dessus, vous pouvez ajouter des voix au dossier Voices. Cela peut être un court clip WAV (3-6 secondes) de quelqu'un qui parle. Assurez-vous que c'est un audio de haute qualité sans lacunes. Ensuite, exécutez le webui avec --extensions text_generation_webui_xtts et sélectionnez votre voix / langue et d'autres paramètres en bas. Vous devrez peut-être accepter les termes et conditions via la console lorsque vous l'exécutez pour la première fois.