Ini adalah ekstensi sederhana untuk teks-generasi-webui yang memungkinkan TT multibahasa, dengan kloning suara menggunakan XTTSV2 dari Coqui-Ai/TTS.
XTTSV2 sekarang dibangun menjadi teks-generasi-webui (coqui_tts). Saya mungkin masih memperbarui ekstensi ini untuk fitur narator, tetapi jika Anda tidak peduli tentang itu, gunakan ekstensi resmi.
Ini adalah ekstensi yang sangat kasar yang saya lempar bersama dengan cepat berdasarkan ekstensi Barktts. Itu mungkin atau mungkin tidak berhasil. Jangan ragu untuk meningkatkan kode dan mengirimkan PR.
Aktifkan lingkungan Anda dengan menjalankan cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.bat tergantung pada platform Anda, atau mengaktifkan lingkungan conda Anda jika Anda menginstalnya secara manual. Klon repo ini:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
Instal dependensi untuk TTS.
cd text_generation_webui_xtts
pip install -r requirements.txt
Instal TTS. Persyaratan versi mereka menyebabkan masalah sehingga kami menginstal dependensi di atas, tanpa persyaratan versi.
pip install TTS --no-dependencies
Setelah menyelesaikan langkah -langkah di atas, Anda dapat menambahkan beberapa suara ke folder suara. Ini bisa berupa klip pendek (3-6 detik) dari seseorang yang berbicara. Pastikan audio berkualitas tinggi tanpa celah panjang. Kemudian, jalankan WebUI dengan --extensions text_generation_webui_xtts dan pilih suara/bahasa Anda dan pengaturan lainnya di bagian bawah. Anda mungkin harus menerima syarat dan ketentuan melalui konsol saat pertama kali menjalankannya.