Descarga WG WaveNet - Descargar el código fuente de WG WaveNet

WG WaveNet

Código Fuente de IA

1.0.0

Descargar

WG-Wavenet: síntesis del habla de alta fidelidad en tiempo real sin GPU

Po-chun hsu, hung-yi lee

En nuestro artículo reciente, proponemos WG-Wavenet, un modelo de generación de forma de onda rápida, liviana y de alta calidad. WG-Wavenet está compuesto por un modelo compacto basado en flujo y un post filtro. Los dos componentes están entrenados conjuntamente maximizando la probabilidad de los datos de entrenamiento y optimizando las funciones de pérdida en los dominios de frecuencia. A medida que diseñamos un modelo basado en el flujo que está muy comprimido, el modelo propuesto requiere mucho menos recursos computacionales en comparación con otros modelos de generación de forma de onda durante el tiempo de entrenamiento e inferencia; A pesar de que el modelo está altamente comprimido, el postfiltro mantiene la calidad de la forma de onda generada. Nuestra implementación de Pytorch se puede capacitar utilizando memoria de GPU de menos de 8 GB y genera muestras de audio a una velocidad de más de 5000 kHz en una GPU NVIDIA 1080TI. Además, incluso si se sintetiza en una CPU, mostramos que el método propuesto es capaz de generar una forma de onda del habla de 44.1 kHz 1.2 veces más rápido que en tiempo real. Los experimentos también muestran que la calidad del audio generado es comparable a las de otros métodos.

Visite la demopage para ver muestras de audio.

HACER

Libere el modelo de pretrada.
Combinar con Tacotron2.

Requisitos

Python> = 3.5.2
antorcha> = 1.4.0
numpy
bisagro
conservar en vinagre
Librosa
tensorboardx

Preprocesamiento

Capacitación

Descargar el discurso LJ. En este ejemplo está en data/
Para el entrenamiento, ejecute el siguiente comando.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >

Para el entrenamiento utilizando un modelo previo al estado previo, ejecute el siguiente comando.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >

Para usar TensorBoard (opcional), ejecute el siguiente comando.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs >

Inferencia

Para sintetizar archivos WAV, ejecute el siguiente comando.

python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs >

Modelo previamente

Trabajo en progreso.

TTS

Combinaremos este vocoder con Tacotron2. Aquí se publicará más información y demostración de Colab.

Referencias

Glojo de onda por Nvidia
Paralelowavegan por Kan-Bayashi

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 13.71KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
wgcf

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo