كتاب غير إنجليزي-تاكوترون 2
دفتر تدريب Tacotron 2 يدعم اليابانية والفرنسية والماندرين
ملخص
يهدف دفتر الملاحظات هذا إلى توفير وصول أسهل إلى نماذج Tacotron 2 بلغات أخرى غير اللغة الإنجليزية. في الوقت الحالي ، يتم تضمين نماذج اليابانية (Talqu و Neutalk Phonetics) والفرنسية والماندرين ، ولكن الخطة هي تضمين المزيد في المستقبل ، مثل الألمانية. بالنسبة لليابانيين ، يوصى باستخدام صوتيات Neutalk والنموذج المسبق.
الصوت المدعوم
يجب أن يكون الصوت للتدريب ملفات Mono Wav 16 بت 16 بت. لا تشمل المساحات في أسماء الملفات. يجب أن تتضمن الملفات فقط alphanumerics (نصف عرض) ، شرطات ، ودرس. هذا يعني عدم وجود أسماء الملفات اليابانية أو الصينية ، أو العلماء. يجب أن تكون مقاطع الصوت 10 ثوانٍ أو أقل لتسهيل التعلم. بناءً على اختباراتي ، أوصي بوجود 15 دقيقة على الأقل من الصوت.
النسخ
يجب أن يكون ملف النسخ مستندًا نصيًا مع كل سطر له التنسيق التالي: wavs/{name_of_file}.wav|{text} . استخدم أحد G2Ps المضمّن لتحويل النسخ إلى المدخلات الصوتية المناسبة.
تمرين
يجب أن تكون الخطوات الموجودة في دفتر الملاحظات محسوسًا ذاتيًا ، وآمل أن تكون كذلك. قم بتحميل الصوت الخاص بك في المجلد/ المجلد قبل البدء في التدريب. فيما يلي بعض الملاحظات التي يجب وضعها في الاعتبار:
- يجب أن يكون حجم الدُفعات من الناحية المثالية عاملًا في مقدار الموجات التي لديك. على سبيل المثال ، عند تدريب نموذج مع 15 موجات ، قمت بتعيين حجم الدُفعة على 5.
- إذا كان لديك GPU T4 على كولاب ، فلا تقم بضبط حجم الدفعة أعلى من 14.
- يجب أن يكون دليل الإخراج للتدريب في Google Drive في حالة فصلك.
- أثناء تدريبك ، سيتم تراكم نقاط التفتيش. احذف تلك القديمة وقمامة فارغة للحفاظ على تخزين محرك الأقراص الخاص بك متاحًا.
- توقف عن التدريب عندما تصل إلى خسارة التحقق المناسبة. على سبيل المثال ، ما أقوم به هو: أقل من 30 ملف = تحت 0.07 ؛ 30-100 ملفات = تحت 0.09 ؛ 150+ ملف = تحت 0.1 ؛ أكثر من 30 دقيقة من البيانات = تحت 0.14
الصفات
- Talqu Phonetic System by Haruqa (https://booth.pm/ja/items/2755336)
- نظام صوتي ياباني محايد بواسطة Neutrogic (https://github.com/neutrogic/neutalk)
- نموذج pretrained من قبل Haruqa (https://github.com/haruqa/tacotron2/release)
- النماذج اليابانية والماندرين الماندرين بواسطة Neutrogic (https://github.com/neutrogic/neutalk)
- النموذج المسبق الفرنسي الذي أنشأته Mildemelwe وتدريبه بواسطة Neutrogic (https://github.com/neutrogic)
- استنادا إلى الكود من دفتر تدريب Uberduck Tacotron 2 (https://colab.research.google.com/drive/1wtilmdm9vf79gzkeetbigan6iv3bg؟usp=sharing)
- تنفيذ Tacotron 2 بواسطة Nvidia (https://github.com/nvidia/tacotron2)