Neural Voice Cloning With Few Samples - Neural Voice Cloning With Few Samples تنزيل رمز المصدر

Neural Voice Cloning With Few Samples

كود الذكاء الاصطناعي

1.0.0

تنزيل

الحالة : الأرشيف (يتم توفير الرمز كما هو ، لا يوجد تحديثات متوقعة)

العصبية-فوز التراجع مع عينات

نحن نحاول استنساخ أصوات للمتحدثين الذين يعانون من محتوى مستقل. هذا يعني أنه يتعين علينا تشفير هوية السماعة بدلاً من المحتوى الذي يتحدثونه. نحاول القيام بذلك عن طريق جعل مكبر صوت تضمين مساحة لمختلف مكبرات الصوت.

تحاول تضمينات المتحدث تمثيل هوية المتحدث (جوانب مختلفة من الصوت مثل الملعب ، واللكنة ، إلخ من المتحدث) ، يمكنك اعتبار هذا بصمة الصوت للمتحدث.

نحن نشير الآن إلى الورقة التالية لتنفيذنا:-

"الصوت العصبي استنساخ مع بعض العينات" بقلم بايدو

حالة

تم بناء بنية النموذج التوليدي متعدد الحوادث ومواد السماعة.

تم تدريب نموذج توليني متعدد الحواف لتكييف مكبر الصوت لـ 84 مكبرات صوت باستخدام VCTK-Dataset على GPU NVIDIA-V100 لعام 190000.

غموض المتحدث

تم تقسيم مجموعة بيانات VCTK للتدريب والاختبار: يتم استخدام 84 مكبرات صوت لتدريب نموذج Multi-Speaker ، و 8 مكبرات صوت للتحقق من الصحة ، و 16 مكبرات صوت للاستنساخ.

التدريب على غموض المتحدث

سيقوم ما يلي بتدريب النموذج على أول 84 مكبرات صوت في مجموعة البيانات.

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

هذا يمكن أن يستغرق 20 ساعة باستخدام وحدة معالجة الرسومات.

لتكييف النموذج مع مكبر صوت معين بعد التدريب الأولي

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

سيستغرق هذا في المتوسط 10 إلى 20 دقيقة.

بعض الأصوات المستنسخة

حتى الآن بعض الأصوات المخروطية التي حصلنا عليها باستخدام رابط تكيف السماعة

شكر وتقدير

تم إلهام تنفيذ نموذج توليد متعدد الحوامل من https://github.com/r9y9/deepvoice3_pytorch
صوت الصوت العصبي مع بعض العينات

استشهد

إذا وجدت الرمز في المستودع مفيدًا ، فيرجى الاستشهاد به باستخدام:

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-20
الحجم 42.14MB
من Github

تطبيقات ذات صلة

azure search python samples

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
محاصر مع المهرج

2024-02-23
نسخة أندرويد السحابية العصبية

2022-11-24
نحن سعداء قليلة

2022-09-05

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل