Implementación no oficial de Pytorch de discurso de luz: texto liviano y rápido a discurso con búsqueda de arquitectura neuronal. Este repositorio utiliza la implementación de FastSpeech 2 de ESPNet como base. Este repositorio solo implementa la versión final del modelo LightSpeech, no la búsqueda de arquitectura neuronal como se menciona en el papel.
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x.
Todo el código escrito en Python 3.6.2 .
Antes de instalar Pytorch, consulte su versión CUDA ejecutando el siguiente comando:
nvcc --version
pip install torch torchvision
En este repositorio he usado Pytorch 1.6.0 para la función torch.bucketize que no está presente en versiones anteriores de Pytorch.
pip install -r requirements.txt
tensorboard version 1.14.0 por separado con tensorflow (1.14.0) La carpeta filelists contiene MFA (Motreal Force Aligner) Archivos de conjunto de datos LJSPEECH procesados para que no necesite alinear texto con audio (para duración de extracto) para el conjunto de datos LJSPEECH. Para otro conjunto de datos, siga la instrucción aquí. Para otro comando de ejecución previa al procesamiento:
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
Para encontrar el min y el máximo de F0 y la energía
python .compute_statistics.py
Actualice lo siguiente en hparams.py por min y máximo de F0 y energía
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
Ceñudo
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc