Repositori ini berisi model FastSpeech2 untuk 8 bahasa India (pria dan wanita keduanya) diimplementasikan menggunakan Montreal Forced Aligner (MFA) untuk sintesis ucapan. Model ini mampu menghasilkan Mel-spectrograms dari input teks dan dapat digunakan untuk mensintesis ucapan.
Repo berukuran besar: kami telah menggunakan GIT LFS karena batasan ukuran GitHub (silakan instal LFS GIT terbaru dari tautan, kami telah memberikan yang saat ini di bawah).
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install
File model bahasa diunggah menggunakan GIT LFS. Jadi tolong gunakan:
git lfs fetch --all
git lfs pull
Untuk mendapatkan file asli di direktori Anda.
Model untuk setiap bahasa termasuk file berikut:
config.yaml : File konfigurasi untuk model FastSpeech2.energy_stats.npz : Statistik energi untuk normalisasi selama sintesis.feats_stats.npz : Fitur statistik untuk normalisasi selama sintesis.feats_type : fitur informasi jenis.pitch_stats.npz : Statistik pitch untuk normalisasi selama sintesis.model.pth : bobot model fastspeech2 pra-terlatih. environment.yml yang disediakan: conda env create -f environment.yml2.Aktivasi Lingkungan Conda (periksa file di dalam lingkungan.YAML):
conda activate tts-mfa-hifiganconda install pytorch torchvision cudatoolkit
pip install torchaudioUntuk menghasilkan file WAV dari Mel-Spectrograms, Anda dapat menggunakan vocoder pilihan Anda. Salah satu opsi yang populer adalah Vocoder Hifigan (mengkloning repo ini dan memasukkannya ke dalam direktori kerja saat ini). Silakan merujuk ke dokumentasi vocoder yang Anda pilih untuk instruksi instalasi dan penggunaan.
(Kami telah menggunakan vocoder hifigan dan telah memberikan vokoder yang disetel pada bahasa Arya dan Dravida)
Jalur direktori relatif. (Buat perubahan pada file text_preprocess_for_inference.py dan inference.py . Perbarui folder/jalur file di mana pun diperlukan.)
Tolong beri bahasa dimulai dengan huruf kapital dan jenis kelamin dalam kasus kecil dan teks sampel antar kutipan. Argumen output adalah opsional; Nama yang disediakan akan digunakan untuk file output.
Gunakan file inferensi untuk mensintesis pidato dari input teks:
python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >Contoh:
python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav
File akan disimpan sebagai male_hindi_output.wav dan akan berada di dalam direktori kerja saat ini. Jika -output_file argumen tidak diberikan itu akan disimpan sebagai <language>_<gender>_output.wav di direktori kerja saat ini.
Jika Anda menggunakan model FastSpeech2 ini dalam penelitian atau pekerjaan Anda, harap pertimbangkan mengutip:
"Hak Cipta 2023, Konsorsium Teknologi Pidato, Bhashini, Meity dan oleh Hema A Murthy & S Umesh, Departemen Ilmu Komputer dan Teknik dan Teknik Listrik, IIT Madras. Semua hak dilindungi undang -undang"
Tameng:
Karya ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution 4.0.