Implémentation non officielle Pytorch de LightSpeech: texte léger et rapide à la parole avec recherche d'architecture neuronale. Ce repo utilise l'implémentation FastSpeech 2 d'ESPNET comme base. Ce repo implémente uniquement la version finale du modèle LightSpeech et non la recherche d'architecture neuronale comme mentionné dans le papier.
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x.
Tout le code écrit en Python 3.6.2 .
Avant d'installer Pytorch, veuillez vérifier votre version CUDA en exécutant la commande suivante:
nvcc --version
pip install torch torchvision
Dans ce dépôt, j'ai utilisé Pytorch 1.6.0 pour la fonction torch.bucketize qui n'est pas présente dans les versions précédentes de Pytorch.
pip install -r requirements.txt
tensorboard version 1.14.0 séparément avec tensorflow (1.14.0) Le dossier filelists contient des fichiers de données LJSpeech traités MFA (MotReal Force Aligner), vous n'avez donc pas besoin d'aligner le texte avec l'audio (pour la durée d'extrait) pour l'ensemble de données LJSpeech. Pour un autre ensemble de données, suivez l'instruction ici. Pour d'autres prétraitements Exécuter la commande suivante:
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
Pour trouver le min et le max de F0 et de l'énergie
python .compute_statistics.py
Mettez à jour ce qui suit dans hparams.py par min et max de F0 et de l'énergie
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
Vider
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc