Repositori ini adalah implementasi multibahasa fonemik (Rusia-Inggris) berdasarkan kloning voice-time-real-time. Adalah kerangka kerja pembelajaran mendalam empat tahap yang memungkinkan untuk membuat representasi numerik suara dari beberapa detik audio, dan bagi kami untuk mengkondisikan model teks-ke-ucapan. Jika Anda membutuhkan versi bahasa Inggris, silakan gunakan implementasi asli.
Repositori ini adalah implementasi fonemik multibahasa (Rusia-Inggris) berdasarkan kloning-nyata waktu-nyata. Ini terdiri dari empat jaringan saraf yang memungkinkan Anda membuat representasi numerik suara dari beberapa detik suara dan menggunakannya untuk membuat model untuk mengubah teks menjadi ucapan
Gunakan demo online colab
Anda akan memerlukan whather berikut yang Anda rencanakan untuk menggunakan kotak alat hanya untuk melatih kembali model.
≥Python 3.6 .
Pytorch (> = 1.0.1).
Jalankan pip install -r requirements.txt untuk menginstal paket yang diperlukan.
GPU adalah wajib, tetapi Anda tidak perlu GPU tingkat tinggi jika Anda ingin menggunakan kotak alat.
Unduh Geere terbaru.
| NAMA | Bahasa | Link | Komentar | Tautan saya | Komentar |
|---|---|---|---|---|---|
| Kamus Fonem | En, ru | En, ru | Kamus Fonem | Link | Gabungan Kamus Fonemik Rusia dan Inggris |
| Librispeech | En | Link | 300 speaker, pidato bersih 360 jam | ||
| Voxceleb | En | Link | 7000 pembicara, banyak jam yang buruk | ||
| M-ADABS | Ru | Link | 3 pembicara, pidato bersih 46 jam | ||
| Open_tts, open_stt | Ru | Open_tts, open_stt | Banyak pembicara, banyak jam yang buruk | Link | Membersihkan 4 jam pidato satu pembicara. Mengoreksi anotasi, dibagi menjadi segmen hingga 7 detik |
| VoxForge+AudioBook | Ru | Link | Banyak pembicara, berkualitas 25 jam | Link | Saya memilih file yang bagus. Pecah menjadi segmen. Menambahkan buku audio dari internet. Ternyata 200 speaker beberapa menit untuk masing -masing |
| Ruslan | Ru | Link | Satu pembicara, ucapan bagus 40h | Link | Dikoreksi dalam 16kHz |
| Mozilla | Ru | Link | 50 Pembicara, pidato bagus 30 jam | Link | Dipendek dalam 16kHz, tersebar di folder yang berbeda di folder |
| Single Rusia | Ru | Link | Satu pembicara, ucapan bagus 9h | Link | Dikoreksi dalam 16kHz |
Anda dapat mencoba kotak alat:
python demo_toolbox.py -d <datasets_root>
atau
python demo_toolbox.py
Model pretrained
Pelatihan (dan untuk bahasa lain)
Pelatihan (dan untuk bahasa lain)
Untuk pertanyaan apa pun, silakan kirim email
| Url | Penamaan | Judul | Sumber Implementasi |
|---|---|---|---|
| 1806.04558 | SV2TTS | Transfer pembelajaran dari verifikasi speaker ke sintesis teks-ke-ucapan multispeaker | Corentinj |
| 1802.08435 | Wavernn (Vocoder) | Sintesis audio yang efisien | Fatchord/Wavernn |
| 1712.05884 | Tacotron 2 (synthesizer) | Sintesis TTS alami dengan mengondisikan Wavenet pada prediksi spektrogram MEL | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | Ge2e (encoder) | Kehilangan ujung ke ujung umum untuk verifikasi pembicara | Corentinj |