นี่เป็นส่วนขยายที่ง่ายสำหรับการสร้างข้อความรุ่นข้อความที่เปิดใช้งาน TTs หลายภาษาด้วยการโคลนเสียงโดยใช้ XTTSV2 จาก Coqui-AI/TTS
ตอนนี้ XTTSV2 ถูกสร้างขึ้นใน Text-Generation-Webui (COQUI_TTS) ฉันอาจยังคงอัปเดตส่วนขยายนี้สำหรับคุณสมบัติผู้บรรยาย แต่ถ้าคุณไม่สนใจสิ่งนั้นให้ใช้ส่วนขยายอย่างเป็นทางการ
นี่เป็นส่วนขยายที่หยาบมากที่ฉันโยนเข้าด้วยกันอย่างรวดเร็วตามส่วนขยายของ Barktts อาจใช้งานได้หรือไม่ได้ อย่าลังเลที่จะปรับปรุงรหัสและส่ง PR
เปิดใช้งานสภาพแวดล้อมของคุณโดยเรียกใช้ cmd_windows.bat / cmd_linux.sh / cmd_macos.sh / cmd_wsl.bat ขึ้นอยู่กับแพลตฟอร์มของคุณหรือเปิดใช้งานสภาพแวดล้อม Conda ของคุณหากคุณติดตั้งด้วยตนเอง โคลน repo นี้:
cd extensions
git clone https://github.com/kanttouchthis/text_generation_webui_xtts
ติดตั้งการพึ่งพาสำหรับ TTS
cd text_generation_webui_xtts
pip install -r requirements.txt
ติดตั้ง TTS ข้อกำหนดของเวอร์ชันของพวกเขาทำให้เกิดปัญหาดังนั้นเราจึงติดตั้งการอ้างอิงข้างต้นโดยไม่มีข้อกำหนดของรุ่น
pip install TTS --no-dependencies
เมื่อคุณทำตามขั้นตอนด้านบนเสร็จแล้วคุณสามารถเพิ่มเสียงบางอย่างลงในโฟลเดอร์ Voices นี่อาจเป็นคลิป WAV สั้น ๆ (3-6 วินาที) ของใครบางคนที่พูดคุย ตรวจสอบให้แน่ใจว่าเป็นเสียงคุณภาพสูงโดยไม่มีช่องว่างยาว จากนั้นเรียกใช้ webui ด้วย --extensions text_generation_webui_xtts และเลือกเสียง/ภาษาของคุณและการตั้งค่าอื่น ๆ ที่ด้านล่าง คุณอาจต้องยอมรับข้อกำหนดและเงื่อนไขผ่านคอนโซลเมื่อคุณเรียกใช้ครั้งแรก