تنزيل ttts - تنزيل رمز المصدر ttts

ttts

كود الذكاء الاصطناعي

1.0.0

تنزيل

التفاصيل: تعلم معلومات التفاصيل المتبقية للرسالة الصفراء النص إلى الكلام

إلهام

على حد علمي ، فإن الطريقة في هذا المشروع هي الأولى من نوعها التي اقترحتها. تنبع الفكرة الرئيسية من نمذجة "التفاصيل" ، حيث شعرت بالقلق من أن الأساليب القائمة على أن VQ (كمية المتجه) لا يمكن أن تعيد بناء الصوت بشكل جيد للغاية ، ولا توجد أيضًا طريقة لتصميم هذا المتبقي. ومع ذلك ، بالنسبة إلى الحالات التقليدية ، هناك طرق لإنشاء بعض الإشارات الإشرافية ، مثل الأطياف الخطية ، أو باستخدام التضمينات القابلة للتعلم لتعلم المدة. أدت هذه الملاحظات في النهاية إلى تحقيق هذه الطريقة نتائج جيدة للغاية.

العرض التوضيحي

قم بزيارة الصفحة التجريبية

ثَبَّتَ

قم بزيارة النماذج التي تم تدريبها مسبقًا

 pip install -e .

تمرين

1. تدريب الرمز المميز

استخدم ttts/prepare/bpe_all_text_to_one_file.py لدمج كل النص الذي جمعته. لتدريب الرمز المميز ، تحقق من ttts/gpt/voice_tokenizer لمزيد من المعلومات.

2. تدريب Vqvae

استخدم 1_vad_asr_save_to_jsonl.py و 2_romanize_text.py إلى مجموعة بيانات المعالجة المسبقة. استخدم التعليمات التالية لتدريب النموذج.

 accelerate launch ttts/vqvae/train_v3.py

لغة متعددة

الآن دعم الصينية والإنجليزية واليابانية والكورية.

يمكنك استخدام أي لغة مع هذا النموذج بخطوتين.

أولاً ، جمع العديد من النصوص من هذه اللغة.
ثانياً ، قم بتدريب ttts/gpt/voice_tokenizer للحصول على قاموس.

للغة الإنجليزية ، يمكنك استخدام النص مباشرة. ومع ذلك ، بالنسبة للصينية ، تحتاج إلى استخدام Pinyin ، وبالنسبة اليابانية ، تحتاج إلى استخدام Romaji ، مع التأكد من تضمين معلومات النطق في النص.

الاستدلال

يرجى التحقق من api.py للحصول على تفاصيل الاستدلال.

الكون المثالى

قم بتغيير مسار الحمل في Train_v3.py مع نموذج pretrained ، ثم تدريبه. حول مجموعة البيانات ، يجب أن تعالج النص ومسار الصوت واللاتينية. يمكنك الرجوع إلى ttts/prepare/2_romanize_text.py للحصول على بعض المعلومات.