China-fastspeech2
Berdasarkan data suara wanita standar Cina Biaobei, model FastSpeech2 dari kertas asli ditingkatkan, dan representasi ritmis dan modul prediksi ritme diperkenalkan untuk membuat pengucapan Cina lebih jelas dan berirama
Pembaruan 20230402
- 1. Tambahkan kode pelatihan model ritme, di direktori Bertprosody
- 2. Tambahkan kode preprocessing untuk pelatihan model ritme (untuk data shell standar, kode belum diurutkan, rilis pertama), di preprocessor/biaobei.py
Mencicipi
Lihat audio yang dihasilkan dalam sampel
File model
Struktur utama dari proyek ini adalah struktur FastSpeech2+Hifigan. Selain itu, vektor ritme teks Cina diperkenalkan pada tahap input. Oleh karena itu, ada tiga model: fastspeech_model, hifigan_model, prosody_model (tautan disk net, kode ekstraksi: qgpi). Setelah mengunduh, masukkan file model ke dalam direktori yang ditentukan:
- 8000.pth.tar ---> output/ckpt/biaobei/
- generator_universal.pth.tar ---> hifigan/
- Best_model.pt ---> Transformer/Prosody_Model/
meramalkan
Dua metode prediksi disediakan: 1) Python synthesize_all.py; 2) Panggilan Antarmuka HTTP
- Metode pertama adalah interaktif . Setelah menjalankan python synthesize_all.py pada baris perintah, masukkan teks yang perlu dikonversi. Setelah berjalan, file TMP.WAV akan dihasilkan dalam kode di direktori kerja saat ini;
- Metode kedua adalah memanggil API , menjalankan tts_server.py, yang akan memulai antarmuka suara-ke-teks. Jika Anda memanggil antarmuka ini, Anda dapat merujuk ke testServer.py. File audio yang dihasilkan yang sama (tmp.wav) akan disimpan di direktori kerja saat ini.
kereta
- Karena proyek ini mengacu pada proyek FastSpeech2, jika Anda ingin menyesuaikan pelatihan, proyek ini menyediakan metode pelatihan yang lebih rinci untuk referensi;
- Proyek ini telah membuat beberapa optimisasi pada metode asli. Untuk bagian optimasi, silakan merujuk ke blog: sintesis pidato Cina berdasarkan optimasi FASTSPEECH2
Proyek ini merupakan upaya untuk membuat sintesis bicara dari kepentingan pribadi. Semua orang dipersilakan untuk mengkritik dan mengoreksi saya dan berkomunikasi lebih banyak!