DeepAudio-TTS adalah kerangka kerja untuk melatih model Text-to-Speech (TTS) berbasis jaringan saraf. Ini memasukkan atau akan mencakup arsitektur jaringan saraf yang populer untuk model TT dan Vocoder.
Untuk memudahkan menggunakan berbagai fungsi seperti presisi campuran, pelatihan multi-node, dan pelatihan TPU dll, saya memperkenalkan pencahayaan pytorch dan hydra dalam kerangka kerja ini. Itu masih dalam pengembangan.
$ export PYTHONPATH="${PYTHONPATH}:/dir/of/this/project/"
$ python -m deepaudio.tts.cli.train experiment=tacotron2 datamodule.train_metadata=/you/path/to/train_metadata datamodule.dev_metadata=/you/path/to/dev_metadata
Ini adalah proyek pribadi. Jadi saya tidak memiliki cukup sumber daya GPU untuk melakukan banyak percobaan. Proyek ini masih dalam pengembangan. Saya menghargai segala jenis umpan balik atau kontribusi. Silakan membuat tarikan requsest untuk beberapa masalah kecil seperti perbaikan bug, hasil percobaan. Jika Anda memiliki pertanyaan, buka masalah.
Saya meminjam banyak kode dari ESPNET dan pidato dayung