En nuestro artículo reciente, proponemos WG-Wavenet, un modelo de generación de forma de onda rápida, liviana y de alta calidad. WG-Wavenet está compuesto por un modelo compacto basado en flujo y un post filtro. Los dos componentes están entrenados conjuntamente maximizando la probabilidad de los datos de entrenamiento y optimizando las funciones de pérdida en los dominios de frecuencia. A medida que diseñamos un modelo basado en el flujo que está muy comprimido, el modelo propuesto requiere mucho menos recursos computacionales en comparación con otros modelos de generación de forma de onda durante el tiempo de entrenamiento e inferencia; A pesar de que el modelo está altamente comprimido, el postfiltro mantiene la calidad de la forma de onda generada. Nuestra implementación de Pytorch se puede capacitar utilizando memoria de GPU de menos de 8 GB y genera muestras de audio a una velocidad de más de 5000 kHz en una GPU NVIDIA 1080TI. Además, incluso si se sintetiza en una CPU, mostramos que el método propuesto es capaz de generar una forma de onda del habla de 44.1 kHz 1.2 veces más rápido que en tiempo real. Los experimentos también muestran que la calidad del audio generado es comparable a las de otros métodos.
Visite la demopage para ver muestras de audio.
Descargar el discurso LJ. En este ejemplo está en data/
Para el entrenamiento, ejecute el siguiente comando.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > Trabajo en progreso.
Combinaremos este vocoder con Tacotron2. Aquí se publicará más información y demostración de Colab.