في ورقتنا الحديثة ، نقترح WG-Wavenet ، نموذج توليد موجة سريعة وخفيفة الوزن وعالية الجودة. يتكون WG-Wavenet من نموذج قائم على التدفق المدمج ومرشح بعد المرشح. يتم تدريب المكونين بشكل مشترك من خلال زيادة احتمالية بيانات التدريب وتحسين وظائف الخسارة على مجالات التردد. أثناء تصميم نموذج قائم على التدفق مضغوط بشدة ، يتطلب النموذج المقترح موارد حسابية أقل بكثير مقارنة بنماذج توليد الموجة الأخرى خلال كل من التدريب ووقت الاستدلال ؛ على الرغم من أن النموذج مضغوط للغاية ، إلا أن المرشح يحافظ على جودة الشكل الموجي الذي تم إنشاؤه. يمكن تدريب تطبيق Pytorch الخاص بنا باستخدام ذاكرة GPU أقل من 8 جيجابايت وينشئ عينات صوتية بمعدل أكثر من 5000 كيلو هرتز على وحدة معالجة الرسومات NVIDIA 1080TI. علاوة على ذلك ، حتى لو كانت توليفًا على وحدة المعالجة المركزية ، فإننا نوضح أن الطريقة المقترحة قادرة على توليد 44.1 كيلو هرتز موجة موجة أسرع 1.2 مرة من الوقت الفعلي. تُظهر التجارب أيضًا أن جودة الصوت المولدة قابلة للمقارنة مع تلك الخاصة بالطرق الأخرى.
قم بزيارة demopage لعينات الصوت.
تحميل خطاب LJ. في هذا المثال في data/
للتدريب ، قم بتشغيل الأمر التالي.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > العمل قيد التقدم.
سوف نجمع بين هذا المتفرج مع Tacotron2. سيتم إصدار مزيد من المعلومات وتوضيح كولاب هنا.