في الورقة الحديثة ، نقترح نموذج YouRTTS. يجلب YouRtts قوة النهج متعدد اللغات لمهمة TTS متعددة الحواف. تعتمد طريقتنا على نموذج Vits ويضيف العديد من التعديلات الجديدة للتدريب متعدد اللغات على الصفر والتدريب متعدد اللغات. لقد حققنا أحدث أحدث (SOTA) ينتج عن TTS متعددة المتحدثين ونتائج مماثلة لـ SOTA في تحويل الصوت صفريًا على مجموعة بيانات VCTK. بالإضافة إلى ذلك ، يحقق نهجنا نتائج واعدة في لغة مستهدفة من خلال مجموعة بيانات ذات مكبرات صوت واحدة ، مما يفتح إمكانيات أنظمة تحويل الصوت متعددة المتحدثين الصفرية وأنظمة التحويل الصوتية الصفرية بلغات منخفضة الموارد. أخيرًا ، من الممكن ضبط نموذج YouRTTS مع أقل من دقيقة واحدة من الكلام وتحقيق نتائج أحدث نتائج في تشابه الصوت وجودة معقولة. هذا مهم للسماح بتوليف مكبرات الصوت مع صوت أو تسجيل مختلف تمامًا عن تلك التي شوهدت أثناء التدريب.
في القسم 2 من ورقة YouRtts ، حددنا وظيفة فقدان اتساق السماعة (SCL). بالإضافة إلى ذلك ، استخدمنا وظيفة الخسارة هذه في 4 تجارب صقل دقيقة في القسمين 3 و 4 (Exp. 1 + SCL ، Exp. 2 + SCL ، Exp. 3 + SCL ، و EXP. 4 + SCL). ومع ذلك ، بسبب خطأ التنفيذ ، لم يتم نشر تدرج وظيفة الخسارة هذه للنموذج أثناء التدريب. وهذا يعني أن التجارب الدقيقة التي تستخدم هذه الخسارة تعادل تدريب النموذج لمزيد من الخطوات دون فقدان اتساق المتحدث. تم اكتشاف هذا الخطأ بواسطة Tomáš Nekvinda وتم الإبلاغ عنه في العدد رقم 2348 من مستودع Coqui TTS. تم إصلاح هذا الخطأ على رقم طلب السحب رقم 2364 على مستودع Coqui TTS. حاليًا ، تم إصلاحه لإصدار Coqui TTS V0.12.0 أو أعلى. نود أن نشكر Tomáš Nekvinda على العثور على الأخطاء والإبلاغ عنها.
تعال جرب أحدث وأعظم نموذج English Model فقط https://coqui.ai/
تفضل بزيارة موقعنا على الويب لعينات الصوت.
تم تنفيذ جميع تجاربنا على repo coqui tts.
| العرض التوضيحي | عنوان URL |
|---|---|
| صفر طلقة TTS | وصلة |
| صفر شوت VC | وصلة |
| Zero -Shot VC - التجربة 1 (تدرب مع VCTK فقط) | وصلة |
جميع نقاط التفتيش التي تم إصدارها مرخصة بموجب CC BY-NC-ND 4.0
| نموذج | عنوان URL |
|---|---|
| تشفير المتحدث | وصلة |
| exp 1. yourtts-en (VCTK) | غير متوفر |
| exp 1. yourtts-en (vctk) + scl | وصلة |
| exp 2. yourtts-en (vctk) -pt | غير متوفر |
| exp 2. yourtts-en (vctk) -pt + scl | غير متوفر |
| exp 3. yourtts-en (vctk) -pt-fr | غير متوفر |
| exp 3. | غير متوفر |
| exp 4. | غير متوفر |
لاستخدام؟ إصدار TTS V0.7.0 تم إصدار نموذج YouRtts للنص إلى الكلام ، استخدم الأمر التالي:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
النظر في "target_speaker_wav.wav" عينة صوتية من مكبر الصوت الهدف.
لاستخدام؟ تم إصدار TTS Myster Yourtts للتحويل الصوتي ، استخدم الأمر التالي:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
النظر في "target_content_wav.wav" كملف الموجة المرجعية للتحويل إلى صوت "Target_Speaker_wav.wav".
لضمان قابلية النسخ المتماثل ، نجعل الصوت المستخدمة لإنشاء MOS المتاحة هنا. بالإضافة إلى ذلك ، نحن نقدم MOS لكل صوت هنا.
لإعادة توحيد نتائج MOS لدينا ، اتبع التعليمات هنا. للتنبؤ بجمل الاختبار وإنشاء SECs ، يرجى استخدام أجهزة الكمبيوتر المحمولة Jupyter المتاحة هنا.
Libritts (اختبار نظيف): 1188 ، 1995 ، 260 ، 1284 ، 2300 ، 237 ، 908 ، 1580 ، 121 و 1089
VCTK: p261 ، p225 ، p294 ، p347 ، p238 ، p234 ، p248 ، p335 ، p245 ، p326 و p302
MLS البرتغالية: 12710 ، 5677 ، 12249 ، 12287 ، 9351 ، 11995 ، 7925 ، 3050 ، 4367 و 1306
لتكرار التكرار بالكامل 1 نقدم وصفة على TTS Coqui. تقوم هذه الوصفة بتنزيل ، RESARMENT ، تستخرج من مكبرات الصوت ، وتدرب النموذج دون الحاجة إلى أي تغييرات في الكود.
تم صنع المقالة باستخدام شوكة Coqui TTS على فرع Torchaudio-Se.
إذا كنت ترغب في استخدام أحدث إصدار من Coqui TTS ، فيمكنك الحصول على config.json من طراز Coqui الذي تم إصداره.
مع config.json في متناول اليد ، تحتاج أولاً إلى تغيير تكوين "مجموعات البيانات" إلى مجموعة البيانات الخاصة بك. باستخدام config.json مع تعديل تكوين "مجموعات البيانات" ، تحتاج إلى استخراج تضمينات السماعة باستخدام مشفر مكبر الصوت الخاص بنا باستخدام الأمر التالي: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
يمكن العثور على "model_se.pth.tar" و "config_se.json" في نموذج Coqui الذي تم إصداره بينما config.json هو التكوين الذي تقوم بتعيينه للمسارات.
المعلمات الأخرى التي يجب عليك تغييرها هي على "config.json":
الآن بعد أن حصلت على config.json تم تكوينها لتكرار التدريب ، يمكنك استخدام الأمر التالي (إذا كنت ترغب في ذلك ، يمكنك استخدام -restore_path {checkpoint_path} للقيام بالتعلم من نقطة تفتيش وتسريع التدريب: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}