สถานะ : เก็บถาวร (รหัสมีให้ตามที่คาดหวังว่าจะมีการอัปเดต)
เรากำลังพยายามโคลนเสียงสำหรับลำโพงซึ่งเป็นเนื้อหาที่เป็นอิสระ ซึ่งหมายความว่าเราต้องห่อหุ้มตัวตนของผู้พูดมากกว่าเนื้อหาที่พวกเขาพูด เราพยายามทำสิ่งนี้โดยการสร้างพื้นที่ฝังลำโพงสำหรับลำโพงที่แตกต่างกัน
ลำโพงฝังตัวพยายามที่จะแสดงถึงตัวตนของผู้พูด (แง่มุมต่าง ๆ ของเสียงเช่นพิทช์, สำเนียง, ฯลฯ ของผู้พูด) คุณสามารถพิจารณาสิ่งนี้เป็นลายนิ้วมือเสียงของลำโพง
ตอนนี้เราอ้างถึงบทความต่อไปนี้สำหรับการดำเนินการของเรา:-
สถาปัตยกรรมสำหรับโมเดลการกำเนิดและตัวเข้ารหัสลำโพงได้ถูกสร้างขึ้น
แบบจำลองการกำเนิดหลายลำโพงได้รับการฝึกฝนสำหรับการปรับลำโพงสำหรับลำโพง 84 ลำที่ใช้ VCTK-Dataset เสร็จสมบูรณ์ใน NVIDIA-V100 GPU สำหรับปี 190000
ชุดข้อมูล VCTK ถูกแยกออกสำหรับการฝึกอบรมและการทดสอบ: 84 ลำโพงใช้สำหรับการฝึกอบรมโมเดลหลายลำโพง, ลำโพง 8 ลำสำหรับการตรวจสอบความถูกต้องและลำโพง 16 ลำสำหรับการโคลนนิ่ง
ต่อไปนี้จะฝึกอบรมโมเดลบนลำโพง 84 ตัวแรกในชุดข้อมูล
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
อาจใช้เวลาไม่เกิน 20 ชั่วโมงโดยใช้ GPU
เพื่อปรับโมเดลให้กับผู้พูดเฉพาะหลังจากการฝึกอบรมครั้งแรก
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
จะใช้เวลาเฉลี่ย 10 ถึง 20 นาที
จนถึงตอนนี้เสียง coned ที่เราได้ใช้ลิงค์ดัดแปลงลำโพง
การใช้แบบจำลองการกำเนิดหลายลำโพงได้รับแรงบันดาลใจจาก https://github.com/r9y9/deepvoice3_pytorch
การโคลนเสียงประสาทด้วยตัวอย่างไม่กี่ตัวอย่าง
หากคุณพบรหัสในที่เก็บมีประโยชน์โปรดอ้างอิงโดยใช้:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}