Frühere Arbeiten haben festgestellt, dass es schwierig ist, kohärente Roh -Audio -Wellenformen mit Gans zu erzeugen. In diesem Artikel zeigen wir, dass es möglich ist, Gans zuverlässig zu trainieren, um qualitativ hochwertige kohärente Wellenformen zu erzeugen, indem eine Reihe von architektonischen Veränderungen und einfachen Trainingstechniken eingeführt werden. Die subjektive Bewertungsmetrik (mittlerer Meinungswert oder MOS) zeigt die Wirksamkeit des vorgeschlagenen Ansatzes für eine qualitativ hochwertige Melspektogramminversion. Um die Allgemeinheit der vorgeschlagenen Techniken festzustellen, zeigen wir qualitative Ergebnisse unseres Modells in der Sprachsynthese, der Übersetzung von Musikdomänen und der bedingungslosen Musiksynthese. Wir bewerten die verschiedenen Komponenten des Modells durch Ablationsstudien und schlagen eine Reihe von Richtlinien vor, um allgemeine Diskriminatoren und Generatoren für Aufgaben der bedingten Sequenzsynthese zu entwerfen. Unser Modell ist nicht autoregressiv, voll mit der Faltung, mit deutlich weniger Parametern als konkurrierende Modelle und verallgemeinert sich auf unsichtbare Lautsprecher für die Melspektogramminversion. Unsere Pytorch-Implementierung läuft bei GTX 1080TI-GPU und mehr als 2-fach schneller als Echtzeit und mehr als 2-fach schneller als Echtzeit bei CPU ohne Hardware-spezifische Optimierungstricks. Blog -Beitrag mit Samples und Begleitcode, die in Kürze kommen.
Besuchen Sie unsere Website für Muster. Sie können die hier erstellte Sprachkorrekturanwendung basierend auf der End-to-End-Sprachsynthesepipeline unter Verwendung von Melgan ausprobieren.
Überprüfen Sie die Folien, wenn Sie nicht an der Neurips 2019 -Konferenz teilnehmen, um unser Poster zu überprüfen.
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
Erstellen Sie einen Rohordner mit allen in wavs/ Unterordner gespeicherten Proben. Führen Sie diese Befehle aus:
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)