ميليغان
تنفيذ Pytorch غير رسمي لـ Melgan Vocoder
الميزات الرئيسية
- Melgan أخف وزنا وأسرع وأفضل في التعميم على مكبرات الصوت غير المرئية من WaveGlow.
- يستخدم هذا المستودع وظيفة MEL-SPECTROGRAM متطابقة من NVIDIA/TACOTRON2 ، بحيث يمكن استخدامها مباشرة لتحويل المخرجات من TACOTRON2 NVIDIA إلى RAW-AUDIO.
- نموذج pretrained على LJSPEEDE-1.1 عبر Pytorch Hub.

المتطلبات الأساسية
تم اختباره على Python 3.6
pip install -r requirements.txt
إعداد مجموعة البيانات
- قم بتنزيل مجموعة البيانات للتدريب. يمكن أن يكون هذا أي ملفات WAV بمعدل عينة 22050 هرتز. (على سبيل المثال ، تم استخدام LJspeech في الورق)
- المعالجة المسبقة:
python preprocess.py -c config/default.yaml -d [data's root path] - تحرير ملف
yaml التكوين
قطار و Tensorboard
-
python trainer.py -c [config yaml file] -n [name of the run]-
cp config/default.yaml config/config.yaml ثم تحرير config.yaml - اكتب مسار الجذر لملفات القطار/التحقق من الصحة إلى السطر الثاني/الثالث.
- يجب أن يحتوي كل مسار على أزواج من
*.wav مع ملف المقابل (المعالجة مسبقًا) *.mel . - تقوم محمل البيانات بتوزيع قائمة الملفات داخل المسار بشكل متكرر.
-
tensorboard --logdir logs/
نموذج ما قبل
جرب مع Google Colab: TODO
import torch
vocoder = torch . hub . load ( 'seungwonpark/melgan' , 'melgan' )
vocoder . eval ()
mel = torch . randn ( 1 , 80 , 234 ) # use your own mel-spectrogram here
if torch . cuda . is_available ():
vocoder = vocoder . cuda ()
mel = mel . cuda ()
with torch . no_grad ():
audio = vocoder . inference ( mel )الاستدلال
-
python inference.py -p [checkpoint path] -i [input mel path]
نتائج
انظر عينات الصوت على: http://swpark.me/melgan/. تم تدريب النموذج على V100 GPU لمدة 14 يومًا باستخدام LJSPEEDE-1.1.

مؤلفو التنفيذ
رخصة
ترخيص BSD 3-طبقة.
- utils/stft.py بواسطة Prem Seetharaman (ترخيص BSD 3-كلوس)
- مجموعات البيانات/mel2samp.py من https://github.com/nvidia/waveglow (ترخيص BSD 3-طبقة)
- utils/hparams.py من https://github.com/harryvolek/pytorch_speaker_verification (لم يتم تحديد ترخيص)
موارد مفيدة
- كيف تتدرب على جان؟ نصائح وحيل لجعل Gans تعمل من قبل Soumith Chintala
- تنفيذ ميليغان الرسمي من قبل المؤلفين الأصليين
- استنساخ Melgan - Neurips 2019 تحدي استنساخ (مسار الاجتثاث) بواسطة Yifei Zhao و Yichao Yang و Yang Gao
- "استبدال طبقة التجميع المتوسطة بطبقة تجميع الأقصى واستبدال حشوة الانعكاس بحشوة النسخ المتماثل يحسن الأداء بشكل كبير ، في حين أن الجمع بينها ينتج عنه نتائج أسوأ"