Karya -karya sebelumnya telah menemukan bahwa menghasilkan bentuk gelombang audio mentah yang koheren dengan GANS menantang. Dalam makalah ini, kami menunjukkan bahwa dimungkinkan untuk melatih GANS dengan andal untuk menghasilkan bentuk gelombang koheren berkualitas tinggi dengan memperkenalkan serangkaian perubahan arsitektur dan teknik pelatihan sederhana. Metrik evaluasi subyektif (skor opini rata-rata, atau MOS) menunjukkan efektivitas pendekatan yang diusulkan untuk inversi Mel-spectrogram berkualitas tinggi. Untuk menetapkan umumnya teknik yang diusulkan, kami menunjukkan hasil kualitatif dari model kami dalam sintesis ucapan, terjemahan domain musik dan sintesis musik tanpa syarat. Kami mengevaluasi berbagai komponen model melalui studi ablasi dan menyarankan serangkaian pedoman untuk merancang diskriminator tujuan umum dan generator untuk tugas sintesis urutan bersyarat. Model kami adalah non-autoregresif, sepenuhnya konvolusional, dengan parameter yang secara signifikan lebih sedikit daripada model yang bersaing dan menggeneralisasi ke speaker yang tidak terlihat untuk inversi Mel-Spectrogram. Implementasi PyTorch kami berjalan lebih dari 100x lebih cepat daripada realtime pada GPU GTX 1080TI dan lebih dari 2x lebih cepat daripada real-time pada CPU, tanpa trik optimasi khusus perangkat keras. Posting blog dengan sampel dan kode yang menyertainya segera hadir.
Kunjungi situs web kami untuk sampel. Anda dapat mencoba aplikasi Koreksi Bicara di sini yang dibuat berdasarkan pipa sintesis ucapan end-to-end menggunakan Melgan.
Periksa slide jika Anda tidak menghadiri konferensi Neurips 2019 untuk memeriksa poster kami.
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
Buat folder mentah dengan semua sampel yang disimpan di wavs/ Subfolder. Jalankan perintah ini:
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)