ملاحظة: لم أعد أعمل في هذا المشروع. انظر رقم 9.
هذا العمل مستوحى من نموذج M-CNN الموصوف في انقلاب الطيف السريع باستخدام شبكات عصبية تلافيفية متعددة الرأس. يوضح المؤلفون أنه حتى شبكات التخطي البسيطة تكفي لتوليف شكل موجة من طيف الطيف/الطيف.
في هذا الريبو ، أستخدم ميزة الطيفية لنموذج التدريب لأنه يحتوي على معلومات أكثر من ميزة MEL-SPECTROGRAG. ومع ذلك ، نظرًا لأن التحول من الطيفية إلى طيف الميل هو مجرد إسقاط خطي ، لذلك في الأساس ، يمكنك تدريب شبكة بسيطة التنبؤ بالطيفية من طيف الميل. يمكنك أيضًا تغيير المعلمات لتكون قادرًا على تدريب Vocoder من ميزة Mel-spectrogram أيضًا.
قارن مع M-CNN ، شبكتي المقترحة لديها بعض الاختلافات:
$ pip install -r requirements.txtيمكنني استخدام مجموعة بيانات LJSPEEDE لتجربتي. إذا لم يكن لديك بعد ، فيرجى تنزيل مجموعة البيانات ووضعها في مكان ما.
بعد ذلك ، يمكنك تشغيل الأمر لإنشاء مجموعة بيانات لتجربتنا:
$ python preprocessing.py --samples_per_audio 20
--out_dir ljspeech
--data_dir path/to/ljspeech/dataset
--n_workers 4$ python train.py --out_dir ${output_directory}لمزيد من خيارات التدريب ، يرجى التشغيل:
$ python train.py --help$ python gen_spec.py -i sample.wav -o out.npz$ python synthesis.py --model_path path/to/checkpoint
--spec_path out.npz
--out_path out.wavيمكنك الحصول على طراز بلدي قبل التدريب هنا.
يستخدم هذا التنفيذ رمزًا من Nvidia و Ryuichi Yamamoto و Keith Ito كما هو موضح في الكود الخاص بي.
معهد ماساتشوستس للتكنولوجيا