แอพโคลนเสียง
แอพ Python/Pytorch สำหรับการสังเคราะห์เสียงของมนุษย์ได้อย่างง่ายดาย

เอกสาร
เซิร์ฟเวอร์ Discord
คู่มือวิดีโอ
ศูนย์แบ่งปันเสียง
คำถามที่พบบ่อย
ข้อกำหนดของระบบ
- Windows 10 หรือ Ubuntu 20.04+ ระบบปฏิบัติการ
- พื้นที่ 5GB+ ดิสก์
- Nvidia GPU ที่มีหน่วยความจำและไดรเวอร์อย่างน้อย 4GB เวอร์ชัน 456.38+ (ไม่บังคับ)
คุณสมบัติที่สำคัญ
- การสร้างชุดข้อมูลอัตโนมัติ (พร้อมรองรับคำบรรยายและหนังสือเสียง)
- การสนับสนุนภาษาเพิ่มเติม
- การฝึกอบรมท้องถิ่นและระยะไกล
- เริ่มต้น/หยุดรถไฟง่าย
- การนำเข้า/ส่งออกข้อมูล
- การสนับสนุนหลาย GPU
คู่มือคู่มือ
- การติดตั้ง
- การสร้างชุดข้อมูล
- การฝึกอบรม
- สังเคราะห์
- การเปลี่ยนแปลง
การปรับปรุงในอนาคต
- เพิ่มการสนับสนุนสำหรับ talknet
- เพิ่มการจัดตำแหน่ง GTA สำหรับ hifi-gan
- ปรับปรุงการประมาณขนาดแบทช์
- การสนับสนุน AMD GPU
ทรัพยากรอื่น ๆ
- สมุดบันทึกการฝึกอบรมระยะไกล
- ลองใช้เสียงที่มีอยู่ที่ Uberduck.ai และ Vocodes
- การดึงข้อมูล YouTube (สร้างโดย DiskR33T#5880)
- สังเคราะห์ใน colab (สร้างโดย Mega B#6696)
- สร้างการถอดความ YouTube (สร้างโดย Mega B#6696)
- wit.ai transcription
กิตติกรรมประกาศ
โครงการนี้ใช้ Tacotron2 เวอร์ชันที่ทำใหม่ สิทธิ์ทั้งหมดสำหรับเป็นของ Nvidia และปฏิบัติตามข้อกำหนดของใบอนุญาต BSD-3 ของพวกเขา
นอกจากนี้โครงการยังใช้ Dsalign, Silero, DeepSpeech & Hifi-Gan
ขอบคุณดร. จอห์นบัสตาร์ดที่มหาวิทยาลัยราชินีเบลฟาสต์ที่ให้การสนับสนุนตลอดทั้งโครงการ
สนับสนุนโดย Uberduck.ai เอื้อมมือไปหาพวกเขาสำหรับโฮสติ้งแบบจำลองสด
นอกจากนี้ยังขอขอบคุณสมาชิกของนักร้องสังเคราะห์ subreddit สำหรับข้อเสนอแนะของพวกเขา
ในที่สุดขอขอบคุณทุกคนที่ทำให้เกิดปัญหาและมีส่วนร่วมในโครงการ