الحالة : الأرشيف (يتم توفير الرمز كما هو ، لا يوجد تحديثات متوقعة)
نحن نحاول استنساخ أصوات للمتحدثين الذين يعانون من محتوى مستقل. هذا يعني أنه يتعين علينا تشفير هوية السماعة بدلاً من المحتوى الذي يتحدثونه. نحاول القيام بذلك عن طريق جعل مكبر صوت تضمين مساحة لمختلف مكبرات الصوت.
تحاول تضمينات المتحدث تمثيل هوية المتحدث (جوانب مختلفة من الصوت مثل الملعب ، واللكنة ، إلخ من المتحدث) ، يمكنك اعتبار هذا بصمة الصوت للمتحدث.
نحن نشير الآن إلى الورقة التالية لتنفيذنا:-
تم بناء بنية النموذج التوليدي متعدد الحوادث ومواد السماعة.
تم تدريب نموذج توليني متعدد الحواف لتكييف مكبر الصوت لـ 84 مكبرات صوت باستخدام VCTK-Dataset على GPU NVIDIA-V100 لعام 190000.
تم تقسيم مجموعة بيانات VCTK للتدريب والاختبار: يتم استخدام 84 مكبرات صوت لتدريب نموذج Multi-Speaker ، و 8 مكبرات صوت للتحقق من الصحة ، و 16 مكبرات صوت للاستنساخ.
سيقوم ما يلي بتدريب النموذج على أول 84 مكبرات صوت في مجموعة البيانات.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
هذا يمكن أن يستغرق 20 ساعة باستخدام وحدة معالجة الرسومات.
لتكييف النموذج مع مكبر صوت معين بعد التدريب الأولي
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
سيستغرق هذا في المتوسط 10 إلى 20 دقيقة.
حتى الآن بعض الأصوات المخروطية التي حصلنا عليها باستخدام رابط تكيف السماعة
تم إلهام تنفيذ نموذج توليد متعدد الحوامل من https://github.com/r9y9/deepvoice3_pytorch
صوت الصوت العصبي مع بعض العينات
إذا وجدت الرمز في المستودع مفيدًا ، فيرجى الاستشهاد به باستخدام:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}