Inoffizielle Pytorch -Implementierung von Lightspeech: Leichter und schneller Text zur Sprache mit neuronaler Architektursuche. Dieses Repo verwendet die Fastspeech 2 -Implementierung von ESPNET als Basis. Dieses Repo implementiert nur die endgültige Version des Lightspeech -Modells, nicht die in Papier erwähnte neuronale Architektursuche.
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x.
Alle in Python 3.6.2 geschriebenen Code.
Vor der Installation von Pytorch überprüfen Sie bitte Ihre CUDA -Version, indem Sie den folgenden Befehl ausführen:
nvcc --version
pip install torch torchvision
In diesem Repo habe ich Pytorch 1.6.0 für torch.bucketize Funktion verwendet, die in früheren Pytorch -Versionen nicht vorhanden ist.
pip install -r requirements.txt
tensorboard version 1.14.0 separat mit unterstütztem tensorflow (1.14.0) filelists -Ordner enthält MFA -Datensatzdateien (Motreal Force Aligner), sodass Sie den Text für den LJSpeech -Datensatz nicht mit Audio (für die Extraktdauer) ausrichten müssen. Für einen anderen Datensatz folgen Sie den Anweisungen hier. Für andere vorverarbeitende Ausführungsbefehlsbefehl:
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
Zum Auffinden der Min und Max von F0 und Energie
python .compute_statistics.py
Aktualisieren Sie Folgendes in hparams.py von Min und Max von F0 und Energie
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
Wip
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc