Dies ist eine einfache Erweiterung für Text-Generation-Webui, die mehrsprachige TTs ermöglicht, wobei das Sprachklonen mit XTTSV2 von Coqui-AI/TTS unter Verwendung von Coqui-AI/TTS kloniert.
XTTSV2 ist jetzt in Text-Generation-Webui (coqui_tts) integriert. Ich könnte diese Erweiterung für die Erzählerfunktion möglicherweise noch aktualisieren, aber wenn Sie sich nicht darum kümmern, verwenden Sie die offizielle Erweiterung.
Dies ist eine sehr grobe Erweiterung, die ich basierend auf der Barkts -Erweiterung schnell zusammengeworfen habe. Es kann funktionieren oder nicht. Fühlen Sie sich frei, den Code zu verbessern und eine PR einzugeben.
Aktivieren Sie Ihre Umgebung, indem Sie cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.bat abhängig von Ihrer Plattform ausführen, oder aktivieren Sie Ihre Conda -Umgebung, wenn Sie sie manuell installiert haben. Klonen Sie dieses Repo:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
Installieren Sie Abhängigkeiten für TTs.
cd text_generation_webui_xtts
pip install -r requirements.txt
TTS installieren. Ihre Versionsanforderungen verursachen Probleme, sodass wir die obigen Abhängigkeiten ohne Versionsanforderungen installieren.
pip install TTS --no-dependencies
Sobald Sie die obigen Schritte abgeschlossen haben, können Sie dem Ordner der Voices einige Stimmen hinzufügen. Dies kann ein kurzer (3-6 Sekunden) WAV-Clip von jemandem sein, der spricht. Stellen Sie sicher, dass es hochwertiges Audio ohne lange Lücken ist. Führen Sie dann das Webui mit --extensions text_generation_webui_xtts aus und wählen Sie unten Ihre Sprache/Sprache und andere Einstellungen aus. Möglicherweise müssen Sie die Allgemeinen Geschäftsbedingungen über die Konsole akzeptieren, wenn Sie sie zum ersten Mal ausführen.