Implementasi Pytorch tidak resmi dari LightSpeech: Teks ringan dan cepat untuk berbicara dengan pencarian arsitektur saraf. Repo ini menggunakan implementasi FastSpeech 2 dari ESPNet sebagai basis. Repo ini hanya mengimplementasikan versi akhir model LightSpeech bukan pencarian arsitektur saraf seperti yang disebutkan dalam kertas.
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x.
Semua kode yang ditulis dalam Python 3.6.2 .
Sebelum menginstal pytorch, silakan periksa versi CUDA Anda dengan menjalankan perintah berikut:
nvcc --version
pip install torch torchvision
Dalam repo ini saya telah menggunakan pytorch 1.6.0 untuk fitur torch.bucketize yang tidak ada dalam versi Pytorch sebelumnya.
pip install -r requirements.txt
tensorboard version 1.14.0 Seperatly dengan tensorflow (1.14.0) Folder filelists berisi MFA (Motreal Force Aligner) yang diproses file dataset LJSPEECH sehingga Anda tidak perlu menyelaraskan teks dengan audio (untuk durasi ekstrak) untuk dataset LJSPEECH. Untuk dataset lain, ikuti instruksi di sini. Untuk perintah pengikut menjalankan pra-pemrosesan lainnya:
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
Untuk menemukan min dan max f0 dan energi
python .compute_statistics.py
Perbarui yang berikut di hparams.py oleh min dan max f0 dan energi
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
WIP
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc