Descargar LVCNet - Descargar código fuente de LVCNet

LVCNet

Código Fuente de IA

1.0.0

Descargar

LVCNET: red de modelado eficiente dependiente de la condición para la generación de forma de onda

Usando LVCNET para diseñar el generador de Wavan Paralelo y la misma estrategia para entrenarlo, la velocidad de inferencia del nuevo Vocoder es más de 5 veces más rápido que el Vocoder original sin ninguna degradación en la calidad de audio .

Nuestros trabajos actuales [documento] han sido aceptados por ICASSP2021, y nuestros trabajos anteriores fueron descritos en Melglow.

Entrenamiento y prueba

Prepare los datos, descargue el conjunto de datos LJSpeech desde https://keithito.com/lj-speech-dataset/, y guárdelo en data/LJSpeech-1.1 . Luego corre
```
 python - m vocoder . preprocess - - data - dir . / data / LJSpeech - 1.1 - - config configs / lvcgan . v1 . yaml
```
Los Mel-Sepctrums se calculan y guardan en la temp/ .

Entrenamiento LVCNET

 python - m vocoder . train - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1

Prueba de LVCNET

 python - m vocoder . test - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1

Los resultados experimentales, incluidos los registros de entrenamiento, los puntos de control modelo y los audios sintetizados, se almacenan en la carpeta exps/exp.lvcgan.v1/ .
Similidad, también puede usar el archivo de configuración configs/pwg.v1.yaml para entrenar un modelo de wavegan paralelo.
```
 # training
python - m vocoder . train - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1
# test
python - m vocoder . test - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1 
```

Resultados

Tabla tensor

Use la placa tensor para ver el proceso de entrenamiento experimental:

 tensorboard --logdir exps

Pérdida de ranura

imagen

Evaluar la pérdida

imagen

Muestra de aduio

Las muestras de audio se guardan en samples/ , donde

samples/*_lvc.wav son generadas por LVCNET,
samples/*_pwg.wav se generan por Wavan paralelo,
samples/*_real.wav son el audio real.

Referencia

LVCNET: red de modelado eficiente dependiente de la condición para la generación de forma de onda, https://arxiv.org/abs/2102.10815
MelGlow: red de forma de onda eficiente basada en la convolución de la ubicación-variable, https://arxiv.org/abs/2012.01684
https://github.com/kan-bayashi/parallelwavegan
https://github.com/lmnt-com/diffwave

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 8.03MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo