Ganyutts เป็นเครื่องมือ VITS + SO-VITS สำหรับการสร้างคำพูดจากข้อความ เดิมทีมันถูกสร้างขึ้นมาสำหรับเกมที่มีอันตรายต่อเกม แต่ฉันแยกออกจากโครงการหลักดังนั้นตอนนี้มันสามารถทำหน้าที่เป็นเครื่องมือการอนุมานแบบสแตนด์อโลนหรือ API Edditts มีให้ที่นี่
นี่เป็นเพียงโครงการของเล่นดังนั้นอย่าคาดหวังมากเกินไป มีหลายสิ่งที่ยังคงมีการเข้ารหัสและรหัสไม่สะอาดมาก ฉันจะพยายามทำความสะอาดในอนาคต
ฉันเพิ่งทำ repo นี้เพื่อความสะดวกของตัวเอง แต่อย่าลังเลที่จะใช้ถ้าคุณต้องการ
ฉันขอแนะนำให้ใช้สภาพแวดล้อมเสมือนจริงสำหรับสิ่งนี้ (conda หรือ venv) นอกจากนี้ฉันขอแนะนำให้ใช้ Python 3.9 หรือสูงกว่า ไม่จำเป็นต้องใช้ GPU แต่จะเพิ่มความเร็วในการอนุมาน
pip install -r requirements.txtสำหรับ เครื่องฟันดอน คุณต้องติดตั้ง Espeak บน Windows คุณสามารถดาวน์โหลดได้จาก ที่นี่ บน Linux คุณสามารถติดตั้งได้โดยใช้ Package Manager ของคุณ
โปรแกรมต้องการไฟล์กำหนดค่าชื่อ config.json ในโฟลเดอร์รูท ไฟล์ตัวอย่างมีให้ คุณสามารถเปลี่ยนเส้นทางไปยังรุ่นและปุ่ม API เส้นทาง Phonemizer นั้นเกี่ยวข้องกับผู้ใช้ Windows เท่านั้นคุณสามารถแก้ไขได้ที่นี่หากคุณได้ติดตั้ง ESPEK ในตำแหน่งอื่น หากคุณต้องการใช้โหมดอินเทอร์แอคทีฟคุณจะต้องได้รับคีย์ API จาก OpenAI มันราคาถูกสุด ๆ และคุ้มค่ากับคุณภาพของการตอบสนอง
ในการเริ่มต้น API ให้เรียกใช้คำสั่งต่อไปนี้:
python main.pyแอพนี้ให้ Flask API อย่างง่ายสำหรับข้อความเป็นคำพูด คุณสามารถส่งคำขอโพสต์ไปยังเซิร์ฟเวอร์มันจะส่งคืนไฟล์ Audio WAV
ตัวอย่างการร้องขอร่างกาย:
{
"text" : " Hello, world! " ,
"sid1" : " 22 " , # speaker id in the multi-speaker VITS model
"sid2" : " ganyu " # speaker id in the SO-VITS model
}การตอบสนอง:
{
"audio" : " <audio wav> " # base64 encoded raw audio
}api_client_example.py มีไว้สำหรับการทดสอบ API
มีสคริปต์การอนุมานสองรายการหนึ่งรายการสำหรับ VITS และอีกหนึ่งรายการสำหรับท่อส่ง + so-vits คุณสามารถใช้พวกเขาเพื่อสร้างเสียงง่าย ๆ จาก CLI
สำหรับ VITS เท่านั้น:
python inference_vits.py -t " Let's get started. I'll be your guide today. "สำหรับ vits + so-vits:
python inference_vits_sovits.py -t " Let's get started. I'll be your guide today " ใช้ -h หรือ --help สำหรับข้อมูลเพิ่มเติม
ทุกรุ่นควรอยู่ในโฟลเดอร์โมเดลคุณต้องดาวน์โหลดด้วยตนเองจาก repo huggingface ของฉัน นอกจากนี้อย่าลืมดาวน์โหลดโมเดลฮิวเบิร์ตเป็นสิ่งจำเป็นสำหรับเครื่องดื่ม ฉันใช้ "checkpoint_best_legacy_500.pt"