Implementação não oficial de Pytorch da LightSpeech: texto leve e rápido para a fala com a pesquisa de arquitetura neural. Este repo usa a implementação do FastSpeech 2 do ESPNET como base. Este repo implementa apenas a versão final do modelo LightSpeech, não a pesquisa de arquitetura neural, conforme mencionado no papel.
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x.
Todo o código escrito no Python 3.6.2 .
Antes de instalar o Pytorch, verifique sua versão CUDA executando o seguinte comando:
nvcc --version
pip install torch torchvision
Neste repo, usei Pytorch 1.6.0 para o recurso torch.bucketize , que não está presente nas versões anteriores do Pytorch.
pip install -r requirements.txt
tensorboard version 1.14.0 Seperatly com tensorflow (1.14.0) A pasta filelists contém os arquivos de conjunto de dados LJSpeech MFA (Moteal Force Aligner), para que você não precise alinhar texto com áudio (para duração de extração) para o conjunto de dados LJSpeech. Para outro conjunto de dados, siga as instruções aqui. Para outros pré-processamento de execução seguindo o comando:
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
Para encontrar o min e o máximo de f0 e energia
python .compute_statistics.py
Atualize o seguinte em hparams.py por min e max de f0 e energia
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
WIP
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc