LightSpeech
1.0.0
Lightspeech의 비공식 Pytorch 구현 : 신경 구조 검색을 통해 가볍고 빠른 텍스트. 이 repo는 ESPNET의 FastSpeech 2 구현을 기본으로 사용합니다. 이 repo는 종이에 언급 된 신경 아키텍처 검색이 아닌 LightSpeech 모델의 최종 버전만을 구현합니다.
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x.
Python 3.6.2 로 작성된 모든 코드.
Pytorch를 설치하기 전에 다음 명령을 실행하여 Cuda 버전을 확인하십시오 :
nvcc --version
pip install torch torchvision
이 repo에서 나는 이전 버전의 Pytorch에 존재하지 않는 torch.bucketize 기능에 Pytorch 1.6.0을 사용했습니다.
pip install -r requirements.txt
tensorboard version 1.14.0 지원되는 tensorflow (1.14.0) 사용하여 Seperatly filelists 폴더에는 MFA (Motreal Force Aligner) 가공 된 LJSpeech 데이터 세트 파일이 포함되어 있으므로 LJSpeech DataSet의 오디오 (추출 기간 동안)와 텍스트를 정렬 할 필요가 없습니다. 다른 데이터 세트는 여기에서 지침을 따르십시오. 다음 명령을 따르는 다른 사전 처리 실행 :
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
F0의 최소와 최대 및 에너지를 찾기 위해
python .compute_statistics.py
최소 및 최대 F0 및 Energy의 hparams.py 에서 다음을 업데이트하십시오.
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
물티
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc