لقد وجدت الأعمال السابقة أن توليد أشكال الموجات الصوتية الخام المتماسكة مع Gans أمر صعب. في هذه الورقة ، نظهر أنه من الممكن تدريب Gans بشكل موثوق على توليد أشكال موجية متماسكة عالية الجودة من خلال تقديم مجموعة من التغييرات المعمارية وتقنيات التدريب البسيطة. يوضح مقياس التقييم الذاتي (متوسط درجة الرأي ، أو MOS) فعالية النهج المقترح لانعكاس طيف الميل العالي الجودة. لتحديد عمومية التقنيات المقترحة ، نعرض النتائج النوعية لنموذجنا في تخليق الكلام وترجمة مجال الموسيقى وتوليف الموسيقى غير المشروط. نقوم بتقييم المكونات المختلفة للنموذج من خلال دراسات الاجتثاث ونقترح مجموعة من الإرشادات لتصميم التمييز والمولدات للأغراض العامة لمهام توليف التسلسل الشرطي. نموذجنا غير ذاتي ، وتلافئ بالكامل ، مع وجود معلمات أقل بكثير من النماذج المنافسة والتعميم على مكبرات الصوت غير المرئية لانعكاس طيف الطيف. يعمل تطبيق Pytorch الخاص بنا بأكثر من 100x أسرع من الوقت الحقيقي على GTX 1080TI GPU وأكثر من 2x أسرع من الوقت الفعلي على وحدة المعالجة المركزية ، دون أي حيل تحسين محددة للأجهزة. مدونة منشور مع عينات والرمز المصاحب قريبا.
قم بزيارة موقعنا على الويب للعينات. يمكنك تجربة تطبيق تصحيح الكلام هنا الذي تم إنشاؤه بناءً على خط تخليق الكلام الشامل باستخدام Melgan.
تحقق من الشرائح إذا كنت لا تحضر مؤتمر Neurips 2019 للتحقق من ملصقنا.
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
قم بإنشاء مجلد RAW مع جميع العينات المخزنة في wavs/ المجلد الفرعي. تشغيل هذه الأوامر:
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)