Unduh Fastspeech2_MFA - Unduh Kode Sumber Fastspeech2

Fastspeech2_MFA

Kode Sumber AI

1.0.0

Unduh

Model FastSpeech2 Menggunakan MFA

Repositori ini berisi model FastSpeech2 untuk 8 bahasa India (pria dan wanita keduanya) diimplementasikan menggunakan Montreal Forced Aligner (MFA) untuk sintesis ucapan. Model ini mampu menghasilkan Mel-spectrograms dari input teks dan dapat digunakan untuk mensintesis ucapan.

Repo berukuran besar: kami telah menggunakan GIT LFS karena batasan ukuran GitHub (silakan instal LFS GIT terbaru dari tautan, kami telah memberikan yang saat ini di bawah).

 curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install

File model bahasa diunggah menggunakan GIT LFS. Jadi tolong gunakan:

 git lfs fetch --all
git lfs pull

Untuk mendapatkan file asli di direktori Anda.

File model

Model untuk setiap bahasa termasuk file berikut:

config.yaml : File konfigurasi untuk model FastSpeech2.
energy_stats.npz : Statistik energi untuk normalisasi selama sintesis.
feats_stats.npz : Fitur statistik untuk normalisasi selama sintesis.
feats_type : fitur informasi jenis.
pitch_stats.npz : Statistik pitch untuk normalisasi selama sintesis.
model.pth : bobot model fastspeech2 pra-terlatih.

Instalasi

Pasang miniconda terlebih dahulu. Buat lingkungan conda menggunakan file environment.yml yang disediakan:

conda env create -f environment.yml

2.Aktivasi Lingkungan Conda (periksa file di dalam lingkungan.YAML):

conda activate tts-mfa-hifigan

Instal Pytorch secara terpisah (Anda dapat menginstal versi spesifik berdasarkan kebutuhan Anda):

conda install pytorch torchvision cudatoolkit
pip install torchaudio

Vocoder

Untuk menghasilkan file WAV dari Mel-Spectrograms, Anda dapat menggunakan vocoder pilihan Anda. Salah satu opsi yang populer adalah Vocoder Hifigan (mengkloning repo ini dan memasukkannya ke dalam direktori kerja saat ini). Silakan merujuk ke dokumentasi vocoder yang Anda pilih untuk instruksi instalasi dan penggunaan.

(Kami telah menggunakan vocoder hifigan dan telah memberikan vokoder yang disetel pada bahasa Arya dan Dravida)

Penggunaan

Jalur direktori relatif. (Buat perubahan pada file text_preprocess_for_inference.py dan inference.py . Perbarui folder/jalur file di mana pun diperlukan.)

Tolong beri bahasa dimulai dengan huruf kapital dan jenis kelamin dalam kasus kecil dan teks sampel antar kutipan. Argumen output adalah opsional; Nama yang disediakan akan digunakan untuk file output.

Gunakan file inferensi untuk mensintesis pidato dari input teks:

python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >

Contoh:

 python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav

File akan disimpan sebagai male_hindi_output.wav dan akan berada di dalam direktori kerja saat ini. Jika -output_file argumen tidak diberikan itu akan disimpan sebagai <language>_<gender>_output.wav di direktori kerja saat ini.

Kutipan

Jika Anda menggunakan model FastSpeech2 ini dalam penelitian atau pekerjaan Anda, harap pertimbangkan mengutip:

"Hak Cipta 2023, Konsorsium Teknologi Pidato, Bhashini, Meity dan oleh Hema A Murthy & S Umesh, Departemen Ilmu Komputer dan Teknik dan Teknik Listrik, IIT Madras. Semua hak dilindungi undang -undang"

Tameng:

Karya ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution 4.0.

Memperluas

Informasi Tambahan