Kemajuan terbaru dalam sintesis wicara telah memanfaatkan jaringan berbasis GAN seperti HiFi-Gan dan Bigvgan untuk menghasilkan bentuk gelombang kesetiaan tinggi dari Mel-Spectrograms. Namun, jaringan ini secara komputasi mahal dan berat parameter. ISTFTNET membahas keterbatasan ini dengan mengintegrasikan Fourier Transform (ISTFT) terbalik ke dalam jaringan, mencapai efisiensi kecepatan dan parameter. Dalam makalah ini, kami memperkenalkan ekstensi ke ISTFTNET, disebut Hiftnet, yang menggabungkan filter sumber harmonik-plus-noise dalam domain frekuensi waktu yang menggunakan sumber sinusoidal dari frekuensi fundamental (F0) yang disimpulkan melalui jaringan estimasi F0 yang terlatih untuk kecepatan inferensi cepat. Evaluasi subyektif pada LJSPEECH menunjukkan bahwa model kami secara signifikan mengungguli ISTFTNET dan HiFi-Gan, mencapai kinerja di permukaan tanah. Hiftnet juga mengungguli Bigvgan-Base di Liblitts untuk speaker yang tidak terlihat dan mencapai kinerja yang sebanding dengan Bigvgan sementara empat kali lebih cepat dengan hanya 1/6 parameter. Pekerjaan kami menetapkan tolok ukur baru untuk vokoding saraf yang efisien dan berkualitas tinggi, membuka jalan bagi aplikasi real-time yang menuntut sintesis ucapan berkualitas tinggi.
Kertas: https://arxiv.org/abs/2309.09493
Sampel audio: https://hiftnet.github.io/
Periksa pekerjaan TTS kami yang menggunakan hiftnet sebagai dekoder ucapan untuk sintesis ucapan tingkat manusia di sini: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]Untuk pelatihan model F0, silakan merujuk ke YL4579/PitchExtractor. Repo ini mencakup model F0 pra-terlatih di Liblitts. Namun, Anda mungkin ingin melatih model F0 Anda sendiri untuk kinerja terbaik, terutama untuk data berisik atau non-pidato, karena kami menemukan bahwa akurasi estimasi F0 sangat penting untuk kinerja vokoder.
Silakan merujuk ke notebook inference.ipynb untuk detailnya.
Anda dapat mengunduh model LJSPEECH yang sudah terlatih di sini dan model Libritts yang sudah terlatih di sini. Model pra-terlatih berisi parameter pengoptimal dan diskriminator yang dapat digunakan untuk penyempurnaan.