Это простое расширение для генерации текста, которое обеспечивает многоязычную TTS, с голосовым клонированием с использованием xttsv2 из Coqui-AI/TTS.
XTTSV2 теперь встроен в генерацию текста-Webui (coqui_tts). Я все еще мог бы обновить это расширение для функции рассказчика, но если вы не заботитесь об этом, используйте официальное расширение.
Это очень грубое расширение, которое я быстро собрал вместе на основе расширения Баркттса. Это может или не может работать. Не стесняйтесь улучшить код и отправить PR.
Активируйте свою среду, используя cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.bat в зависимости от вашей платформы или активируйте среду Conda, если вы установили ее вручную. Клонировать это репо:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
Установите зависимости для TTS.
cd text_generation_webui_xtts
pip install -r requirements.txt
Установите TTS. Их требования к версии вызывают проблемы, поэтому мы устанавливаем вышеупомянутые зависимости, без требований версии.
pip install TTS --no-dependencies
После того, как вы закончите шаги выше, вы можете добавить несколько голосов в папку Voices. Это может быть любой короткий (3-6 секунд) клип, который кто-то говорит. Убедитесь, что это высококачественное звук без длинных пробелов. Затем запустите WebUI с помощью --extensions text_generation_webui_xtts и выберите свой голос/язык и другие настройки внизу. Возможно, вам придется принять условия через консоль, когда вы впервые запускаете ее.