تنزيل YourTTS - تنزيل رمز المصدر YourTTS

YourTTS

كود الذكاء الاصطناعي

MOS Samples

تنزيل

Yourtts: نحو التحويل الصوتي متعدد الحواف من الصفر والتحويل الصوتي للجميع

في الورقة الحديثة ، نقترح نموذج YouRTTS. يجلب YouRtts قوة النهج متعدد اللغات لمهمة TTS متعددة الحواف. تعتمد طريقتنا على نموذج Vits ويضيف العديد من التعديلات الجديدة للتدريب متعدد اللغات على الصفر والتدريب متعدد اللغات. لقد حققنا أحدث أحدث (SOTA) ينتج عن TTS متعددة المتحدثين ونتائج مماثلة لـ SOTA في تحويل الصوت صفريًا على مجموعة بيانات VCTK. بالإضافة إلى ذلك ، يحقق نهجنا نتائج واعدة في لغة مستهدفة من خلال مجموعة بيانات ذات مكبرات صوت واحدة ، مما يفتح إمكانيات أنظمة تحويل الصوت متعددة المتحدثين الصفرية وأنظمة التحويل الصوتية الصفرية بلغات منخفضة الموارد. أخيرًا ، من الممكن ضبط نموذج YouRTTS مع أقل من دقيقة واحدة من الكلام وتحقيق نتائج أحدث نتائج في تشابه الصوت وجودة معقولة. هذا مهم للسماح بتوليف مكبرات الصوت مع صوت أو تسجيل مختلف تمامًا عن تلك التي شوهدت أثناء التدريب.

خطأ

في القسم 2 من ورقة YouRtts ، حددنا وظيفة فقدان اتساق السماعة (SCL). بالإضافة إلى ذلك ، استخدمنا وظيفة الخسارة هذه في 4 تجارب صقل دقيقة في القسمين 3 و 4 (Exp. 1 + SCL ، Exp. 2 + SCL ، Exp. 3 + SCL ، و EXP. 4 + SCL). ومع ذلك ، بسبب خطأ التنفيذ ، لم يتم نشر تدرج وظيفة الخسارة هذه للنموذج أثناء التدريب. وهذا يعني أن التجارب الدقيقة التي تستخدم هذه الخسارة تعادل تدريب النموذج لمزيد من الخطوات دون فقدان اتساق المتحدث. تم اكتشاف هذا الخطأ بواسطة Tomáš Nekvinda وتم الإبلاغ عنه في العدد رقم 2348 من مستودع Coqui TTS. تم إصلاح هذا الخطأ على رقم طلب السحب رقم 2364 على مستودع Coqui TTS. حاليًا ، تم إصلاحه لإصدار Coqui TTS V0.12.0 أو أعلى. نود أن نشكر Tomáš Nekvinda على العثور على الأخطاء والإبلاغ عنها.

نسخة الإنتاج

تعال جرب أحدث وأعظم نموذج English Model فقط https://coqui.ai/

عينات Audios

تفضل بزيارة موقعنا على الويب لعينات الصوت.

تطبيق

تم تنفيذ جميع تجاربنا على repo coqui tts.

Colab Demos

العرض التوضيحي	عنوان URL
صفر طلقة TTS	وصلة
صفر شوت VC	وصلة
Zero -Shot VC - التجربة 1 (تدرب مع VCTK فقط)	وصلة

نقاط التفتيش

جميع نقاط التفتيش التي تم إصدارها مرخصة بموجب CC BY-NC-ND 4.0

نموذج	عنوان URL
تشفير المتحدث	وصلة
exp 1. yourtts-en (VCTK)	غير متوفر
exp 1. yourtts-en (vctk) + scl	وصلة
exp 2. yourtts-en (vctk) -pt	غير متوفر
exp 2. yourtts-en (vctk) -pt + scl	غير متوفر
exp 3. yourtts-en (vctk) -pt-fr	غير متوفر
exp 3.	غير متوفر
exp 4.	غير متوفر

تم إصدار Coqui TTS النموذج

TTS

لاستخدام؟ إصدار TTS V0.7.0 تم إصدار نموذج YouRtts للنص إلى الكلام ، استخدم الأمر التالي:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

النظر في "target_speaker_wav.wav" عينة صوتية من مكبر الصوت الهدف.

تحويل الصوت

لاستخدام؟ تم إصدار TTS Myster Yourtts للتحويل الصوتي ، استخدم الأمر التالي:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

النظر في "target_content_wav.wav" كملف الموجة المرجعية للتحويل إلى صوت "Target_Speaker_wav.wav".

نتائج التكرار

لضمان قابلية النسخ المتماثل ، نجعل الصوت المستخدمة لإنشاء MOS المتاحة هنا. بالإضافة إلى ذلك ، نحن نقدم MOS لكل صوت هنا.

لإعادة توحيد نتائج MOS لدينا ، اتبع التعليمات هنا. للتنبؤ بجمل الاختبار وإنشاء SECs ، يرجى استخدام أجهزة الكمبيوتر المحمولة Jupyter المتاحة هنا.

اختبار مكبرات الصوت:

Libritts (اختبار نظيف): 1188 ، 1995 ، 260 ، 1284 ، 2300 ، 237 ، 908 ، 1580 ، 121 و 1089

VCTK: p261 ، p225 ، p294 ، p347 ، p238 ، p234 ، p248 ، p335 ، p245 ، p326 و p302

MLS البرتغالية: 12710 ، 5677 ، 12249 ، 12287 ، 9351 ، 11995 ، 7925 ، 3050 ، 4367 و 1306

استنساخ

لتكرار التكرار بالكامل 1 نقدم وصفة على TTS Coqui. تقوم هذه الوصفة بتنزيل ، RESARMENT ، تستخرج من مكبرات الصوت ، وتدرب النموذج دون الحاجة إلى أي تغييرات في الكود.

تم صنع المقالة باستخدام شوكة Coqui TTS على فرع Torchaudio-Se.

إذا كنت ترغب في استخدام أحدث إصدار من Coqui TTS ، فيمكنك الحصول على config.json من طراز Coqui الذي تم إصداره.

مع config.json في متناول اليد ، تحتاج أولاً إلى تغيير تكوين "مجموعات البيانات" إلى مجموعة البيانات الخاصة بك. باستخدام config.json مع تعديل تكوين "مجموعات البيانات" ، تحتاج إلى استخراج تضمينات السماعة باستخدام مشفر مكبر الصوت الخاص بنا باستخدام الأمر التالي: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

يمكن العثور على "model_se.pth.tar" و "config_se.json" في نموذج Coqui الذي تم إصداره بينما config.json هو التكوين الذي تقوم بتعيينه للمسارات.

المعلمات الأخرى التي يجب عليك تغييرها هي على "config.json":

"d_vector_file": الآن بعد أن أصبح لديك ملف تضمين السماعة (d_vector_file.json) اضبط المعلمة "d_vector_file" على إعداد التكوين إلى مسار ملف تضمين السماعة.
"output_path": مسار حفظ نقطة التفتيش وسجلات التدريب
"SPEAKER_ENCODER_CONFIG_PATH": تكوين تشفير السماعات لاستخدامه لحساب فقدان جيب إ ويتي للسماعات فقدان الاتساق (اضبطه على مسار config_se.json)
"SPEAKER_ENCODER_MODEL_PATH": نقطة تفتيش مشفر مكبر الصوت المستخدمة لحساب خسارة جيب التشابه/اتساق السماعة (قم بتعيينها على "Config_se.json"

الآن بعد أن حصلت على config.json تم تكوينها لتكرار التدريب ، يمكنك استخدام الأمر التالي (إذا كنت ترغب في ذلك ، يمكنك استخدام -restore_path {checkpoint_path} للقيام بالتعلم من نقطة تفتيش وتسريع التدريب: python3 TTS/bin/train_tts.py --config_path config.json

اقتباس

preprint


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

ورقة منشورة في ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

يوسع

معلومات إضافية

الإصدار MOS Samples
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-14
الحجم 94.83MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل