SC-CNN: วิธีการปรับอากาศลำโพงที่มีประสิทธิภาพสำหรับระบบข้อความหลายลำโพงแบบพูดเป็นศูนย์
ขอบคุณ StylesPeech และ Vits เราสร้างรหัสของเราตามลิงค์และลิงค์
- ใช้ชุดข้อมูล VCTK
- อัตราการสุ่มตัวอย่างถูกตั้งค่าเป็น 22050Hz
- นี่คือการใช้งาน
SC-TransferTTS
วัสดุ
ข้อกำหนดเบื้องต้น
- โคลนที่เก็บนี้
- ติดตั้งข้อกำหนดของ Python โปรดดูข้อกำหนด. txt
- คุณอาจต้องติดตั้ง espeak ก่อน:
apt-get install espeak
- ดาวน์โหลดชุดข้อมูล
- ดาวน์โหลดและแยกชุดข้อมูล VCTK และไฟล์ Downsample WAV เป็น 22050 Hz จากนั้นเปลี่ยนชื่อหรือสร้างลิงก์ไปยังโฟลเดอร์ชุดข้อมูล:
ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY3
- สร้างการค้นหาการจัดตำแหน่งแบบ monotonic และเรียกใช้การประมวลผลล่วงหน้าหากคุณใช้ชุดข้อมูลของคุณเอง
# Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace
การฝึกอบรม Exmaple
python train.py -c configs/vctk_base.json -m vctk_base
ตัวอย่างการอนุมาน
ดู inference.ipynb