هذا المستودع هو تنفيذ متعدد اللغات (روسي-إنجليزي) يعتمد على تربية الوقت الفعلي. هو إطار تعلم عميق من أربع مراحل يسمح بإنشاء تمثيل عددي لصوت من بضع ثوان من الصوت ، وللإحداث نموذج نص إلى كلام. إذا كنت بحاجة إلى الإصدار الإنجليزية ، فيرجى استخدام التنفيذ الأصلي.
هذا المستودع عبارة عن تنفيذ صوتي متعدد اللغات (روسي-إنجليزي) يعتمد على تربية الوقت الفعلي. وهو يتألف من أربع شبكات عصبية تسمح لك بإنشاء تمثيل عددي للصوت من عدة ثوان من الصوت واستخدامه لإنشاء نموذج لتحويل النص إلى الكلام
استخدم عرض Colab Online
ستحتاج إلى ما يلي ما تخطط لاستخدام صندوق الأدوات فقط لإعادة تدريب النماذج.
≥python 3.6 .
Pytorch (> = 1.0.1).
قم بتشغيل pip install -r requirements.txt لتثبيت الحزم اللازمة.
يعد GPU إلزاميًا ، لكنك تحتاج بالضرورة إلى وحدة معالجة الرسومات عالية المستوى إذا كنت ترغب في استخدام صندوق الأدوات.
قم بتنزيل أحدث Geere.
| اسم | لغة | وصلة | تعليقات | رابط بلدي | تعليقات |
|---|---|---|---|---|---|
| قاموس الصوتية | en ، رو | en ، رو | قاموس الصوتية | وصلة | الجمع بين قاموس الصوتية الروسية والإنجليزية |
| Librispeech | en | وصلة | 300 مكبرات صوت ، خطاب نظيف 360 ساعة | ||
| voxceleb | en | وصلة | 7000 مكبرات صوت ، خطاب سيء عدة ساعات | ||
| M-ilabs | رو | وصلة | 3 مكبرات صوت ، خطاب نظيف 46 ساعة | ||
| open_tts ، open_stt | رو | open_tts ، open_stt | العديد من المتحدثين ، وساعات طويلة خطاب سيء | وصلة | تنظيف 4 ساعات من الكلام من متحدث واحد. تصحيح التبرع ، مقسمة إلى أجزاء تصل إلى 7 ثوانٍ |
| Voxforge+Audiobook | رو | وصلة | العديد من المتحدثين ، 25 ساعة جودة مختلفة | وصلة | اخترت الملفات الجيدة. اقتحم الأجزاء. أضافت كتابًا مسموعًا من الإنترنت. اتضح أن 200 مكبر صوت بضع دقائق لكل منهما |
| روسلان | رو | وصلة | متحدث واحد ، 40 ساعة خطاب جيد | وصلة | تم تصحيحه في 16 كيلو هرتز |
| موزيلا | رو | وصلة | 50 متحدثًا ، خطاب جيد 30 ساعة | وصلة | مدهون في 16 كيلو هرتز ، متناثرة مستخدمين مختلفين في المجلدات |
| أغنية روسية | رو | وصلة | متحدث واحد ، خطاب جيد 9H | وصلة | تم تصحيحه في 16 كيلو هرتز |
يمكنك تجربة صندوق الأدوات:
python demo_toolbox.py -d <datasets_root>
أو
python demo_toolbox.py
نماذج ما قبل
التدريب (ولللغات الأخرى)
التدريب (ولللغات الأخرى)
لأي أسئلة ، يرجى إرسال بريد إلكتروني إلى MEM
| عنوان URL | تعيين | عنوان | مصدر التنفيذ |
|---|---|---|---|
| 1806.04558 | SV2TTS | نقل التعلم من التحقق من مكبر الصوت إلى توليف النص إلى الكلام متعدد اللاعبين | كورنتينج |
| 1802.08435 | Wavernn (Vocoder) | تخليق الصوت الفعال | Fatchord/Wavernn |
| 1712.05884 | تاكوترون 2 (مزج) | تخليق TTS الطبيعي عن طريق تكييف Wavenet على تنبؤات طيفية MEL | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E (تشفير) | خسارة معممة من طرف إلى طرف للتحقق من المتحدثين | كورنتينج |