Entrena a Hifi-Gan en TPU y otras soluciones.
Hifi-Gan es un vocoder de GaN popular que logra una muy buena calidad de audio y la generación del habla en tiempo real en la CPU. La implementación oficial de Hifi-Gan está en https://github.com/jik876/hifi-Gan
Este repositorio intentó diferentes cosas para mejorar la implementación oficial:
Utiliza la biblioteca JAX para que pueda entrenar a su Vocoder GaN en TPUS. Puede ejecutarse en Google Colab TPUV2 con una velocidad similar a una GPU V100. Puede ejecutar X3 más rápido (que un V100) en un TPUV3 (probado en Kaggle TPU).
A pesar de que el documento de Hifi-Gan afirma que su generador es una red neuronal totalmente convolucional (FCN), su implementación oficial utiliza relleno en Conv capas para mantener la dimensión igual. Entonces no es un FCN. Este repositorio proporciona un generador FCN que conduce a una mejora en la pérdida de espectrograma MEL.
En este repositorio, la tasa de aprendizaje se reduce en un factor de 0.999 por cada 1000 pasos. Esto es diferente de la implementación original que reduce la tasa de aprendizaje para cada época. Para un pequeño conjunto de datos, esto puede hacer que la tasa de aprendizaje se reduzca demasiado rápido.
La implementación original calcula los marcos condicionales de espectrograma MEL en la mosca para cada segmento de audio objetivo. Esto crea marcos sesgados en los bordes debido al relleno. En este repositorio, también calculamos los marcos condicionales sobre la mosca, sin embargo, eliminamos los marcos sesgados en los bordes.
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir