Téléchargement LVCNet - Téléchargement du code source LVCNet

LVCNet

Code Source AI

1.0.0

Télécharger

LVCNET: réseau de modélisation dépendant de la condition efficace pour la génération de forme d'onde

Utilisant LVCNET pour concevoir le générateur de parallèle Wavegan et la même stratégie pour le former, la vitesse d'inférence du nouveau vocodeur est plus que 5x plus rapide que le vocodeur d'origine sans aucune dégradation de la qualité de l'audio .

Nos travaux actuels [document] ont été acceptés par ICASSP2021, et nos travaux précédents ont été décrits dans Melglow.

Formation et test

Préparez les données, téléchargez un ensemble de données LJSpeech à partir de https://keithito.com/lj-speech-dataset/, et enregistrez-les dans data/LJSpeech-1.1 . Puis courez
```
 python - m vocoder . preprocess - - data - dir . / data / LJSpeech - 1.1 - - config configs / lvcgan . v1 . yaml
```
Les mel-sepctrums sont calculés et enregistrés dans le dossier temp/ .

Formation LVCNET

 python - m vocoder . train - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1

Tester LVCNET

 python - m vocoder . test - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1

Les résultats expérimentaux, y compris les journaux de formation, les points de contrôle du modèle et les audios synthétisés, sont stockés dans le dossier exps/exp.lvcgan.v1/ .
Similitude, vous pouvez également utiliser le fichier config configs/pwg.v1.yaml pour former un modèle Wavegan parallèle.
```
 # training
python - m vocoder . train - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1
# test
python - m vocoder . test - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1 
```

Résultats

Tensorboard

Utilisez le Tensorboard pour afficher le processus de formation expérimentale:

 tensorboard --logdir exps

Perte

Évaluer la perte

Échantillon aduio

Les échantillons audio sont enregistrés dans samples/ , où

samples/*_lvc.wav sont générés par lvcnet,
samples/*_pwg.wav sont générés par parallèle Wavegan,
samples/*_real.wav sont le véritable audio.

Référence

LVCNET: Réseau de modélisation dépendant de la condition efficace pour la génération de forme d'onde, https://arxiv.org/abs/2102.10815
Melglow: réseau génératif de forme d'onde efficace basé sur la convolution de la variable, https://arxiv.org/abs/2012.01684
https://github.com/kan-bayashi/parallelwavegan
https://github.com/lmnt-com/diffwave

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-22
taille 8.03MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout