LVCNet -Download - LVCNet -Quellcode herunterladen

LVCNet

AI-Quellcode

1.0.0

Herunterladen

LVCNET: Effizientes konditionsabhängiges Modellierungsnetzwerk für die Wellenformgenerierung

Verwenden Sie LVCNET zum Entwerfen des Generators des parallelen Wellengegers und der gleichen Strategie zum Training, die Inferenzgeschwindigkeit des neuen Vokoders ist mehr als 5 -fach schneller als der ursprüngliche Vokoder ohne Abbau der Audioqualität .

Unsere aktuellen Werke [Papier] wurden von ICASP2021 akzeptiert, und unsere früheren Werke wurden in MelGlow beschrieben.

Training und Test

Bereiten Sie die Daten vor, laden Sie LJSpeech Datensatz von https://keithito.com/lj-speech-dataset/ herunter und speichern Sie sie in data/LJSpeech-1.1 . Dann rennen
```
 python - m vocoder . preprocess - - data - dir . / data / LJSpeech - 1.1 - - config configs / lvcgan . v1 . yaml
```
Die mel-sepctrums werden in der temp/ berechnet und gespeichert.

Training LVCNET

 python - m vocoder . train - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1

Testen Sie LVCNET

 python - m vocoder . test - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1

Die experimentellen Ergebnisse, einschließlich Trainingsprotokolle, Modell -Checkpoints und synthetisierten Audios, werden in den Ordnern exps/exp.lvcgan.v1/ gespeichert.
Ähnlich können Sie auch die configs/pwg.v1.yaml verwenden, um ein paralleles Wavegegan -Modell zu trainieren.
```
 # training
python - m vocoder . train - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1
# test
python - m vocoder . test - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1 
```

Ergebnisse

Tensorboard

Verwenden Sie das Tensorboard, um den experimentellen Trainingsprozess anzuzeigen:

 tensorboard --logdir exps

Verlust von Quellen

Bild

Verlust bewerten

Bild

ADUIO -Probe

Audioproben werden in samples/ wo

samples/*_lvc.wav werden von LVCNET generiert,
samples/*_pwg.wav werden durch paralleles Wavegan erzeugt,
samples/*_real.wav sind das echte Audio.

Referenz

LVCNET: Effizientes konditionsabhängiges Modellierungsnetzwerk für die Wellenformgenerierung, https://arxiv.org/abs/2102.10815
MelGlow: Effizienter Wellenform generatives Netzwerk basierend auf Standort-Variable Faltung, https://arxiv.org/abs/2012.01684
https://github.com/kan-bayashi/parallelwavegan
https://github.com/lmnt-com/diffwave

Expandieren

Zusätzliche Informationen