Download glow tts - Download Kode Sumber glow tts

glow tts

Kode Sumber AI

1.0.0

Unduh

Glow-Tts: Aliran generatif untuk teks-ke-speech melalui pencarian perataan monotonik

Jaehyeon Kim, Sungwon Kim, Jungil Kong, dan Sungroh Yoon

Dalam makalah kami baru-baru ini, kami mengusulkan Glow-TTS: Aliran generatif untuk teks-ke-speech melalui pencarian penyelarasan monotonik.

Baru-baru ini, model Text-to-Speech (TTS) seperti FastSpeech dan Paranet telah diusulkan untuk menghasilkan Mel-spectrograms dari teks secara paralel. Terlepas dari keuntungannya, model TTS paralel tidak dapat dilatih tanpa panduan dari model TTS Autoregresif sebagai pelurus eksternal mereka. Dalam karya ini, kami mengusulkan GLOW-TTS, model generatif berbasis aliran untuk TTS paralel yang tidak memerlukan pelurus eksternal. Dengan menggabungkan sifat -sifat aliran dan pemrograman dinamis, model yang diusulkan mencari penyelarasan monotonik yang paling mungkin antara teks dan representasi laten dari pidato sendiri. Kami menunjukkan bahwa menegakkan keberpihakan monotonik yang keras memungkinkan TT yang kuat, yang menggeneralisasi untuk ucapan yang lama, dan menggunakan aliran generatif memungkinkan sintesis ucapan yang cepat, beragam, dan terkendali. GLOW-TTS memperoleh kecepatan-up-of-magnitude di atas model autoregresif, Tacotron 2, pada sintesis dengan kualitas bicara yang sebanding. Kami selanjutnya menunjukkan bahwa model kami dapat dengan mudah diperluas ke pengaturan multi-speaker.

Kunjungi demo kami untuk sampel audio.

Kami juga menyediakan model pretrained.

Glow-tts saat pelatihan	Glow-tts saat inferensi

Perbarui Catatan*

Hasil ini tidak termasuk dalam kertas. Akhir-akhir ini, kami menemukan bahwa dua modifikasi membantu meningkatkan kualitas sintesis Glow-Tts; 1) Pindah ke vocoder, Hifi-gan untuk mengurangi noise, 2) menempatkan token kosong antara dua token input untuk meningkatkan pengucapan. Secara khusus, kami menggunakan vocoder yang disesuaikan dengan Tacotron 2 yang disediakan sebagai model pretrained dalam repo HiFi-Gan. Jika Anda tertarik, dengarkan sampel di demo kami.

Untuk menambahkan token kosong, kami menyediakan file konfigurasi dan model pretrained. Kami juga memberikan contoh inferensi inferensi_hifigan.ipynb. Anda mungkin perlu menginisialisasi submodule hifi: git submodule init; git submodule update