Download download Robust_Fine_Grained_Prosody_Control - download kode sumber Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

Kode Sumber AI

1.0.0

Unduh

Kontrol prosodi yang kuat dan berbutir halus dari sintesis ucapan ujung ke ujung (dengan Waveglow)

Pytorch Implementasi kontrol prosodi yang kuat dan berbutir halus dari sintesis ucapan ujung ke ujung (tidak resmi)

Implementasi ini menggunakan dataset Libitts.

Catatan

Cabang dev : Tacotron2 dengan multispeaker (embedding speaker). Informasi pembicara hanya dikonsumsi oleh modul decoder, dan modul perhatian tidak melihatnya (sebagai niat penulis).
Cabang Text_Side : Implementasi Model Kontrol Prosodi Sisi Teks.
Kontrol prosodi sisi bicara dan normalisasi prosodi tidak diimplementasikan dalam versi saat ini, tetapi Anda dapat menambahkannya di atas cabang di atas.

Prasyarat

Nvidia gpu + cuda cudnn

Pengaturan

Unduh dan Ekstrak Dataset Libritts
Klon repo ini: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD ke repo ini: cd Robust_Fine_Grained_Prosody_Control
Inisialisasi Submodule: git submodule init; git submodule update
UPDATE .WAV Paths: sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- Atau, atur load_mel_from_disk=True di hparams.py dan perbarui jalur Mel-Spectrogram
Instal Pytorch 1.0
Instal Apex
Instal Persyaratan Python atau Bangun Gambar Docker
- Instal Persyaratan Python: pip install -r requirements.txt

Pelatihan

python train.py --output_directory=outdir --log_directory=logdir
(Opsional) tensorboard --logdir=outdir/logdir

Berlatih menggunakan model pra-terlatih

(TBD)

Multi-GPU (terdistribusi) dan pelatihan presisi campuran otomatis

Tidak didukung dalam implementasi saat ini.

Kesimpulan

Sampel tunggal: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
Multi Sampel: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB Saat melakukan Mel-spectrogram ke sintesis audio, pastikan Tacotron 2 dan Decoder Mel dilatih pada representasi Mel-spectrogram yang sama.

Kutipan

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}