Unduh End to End TTS Fine Tune - End to End TTS Fine Tune Sumber

Unduh

Fine-tune TTS end-to-end

Proyek ini bertujuan untuk mengembangkan sistem TTS ' AI Assistant for Seniors '. Anda dapat membuat asisten kecerdasan buatan dengan suara keluarga atau teman dan kekasih dengan hanya 5 menit rekaman suara.
Untuk mengatasi pembicara AI yang membutuhkan penciptaan real-time, kami mengadopsi model akustik non-otegresif FastSpe2 dan model Vocoder berbasis GAN HIFI-GAN untuk mempertimbangkan kecepatan dan kecepatan produksi.
Bea cukai tambahan telah dilakukan untuk meningkatkan kinerja multi-speaker.
Repositori ini dikonfigurasi untuk hanya melakukan proses pembelajaran dan pembuatan dengan memanfaatkan scrip shell untuk mengonfigurasi multi speaker D-vektor FastSpeech2 dan model HiFi-Gan untuk memungkinkan fine-tune.
Untuk memberikan TTS -Time di aplikasi, gunakan FastAPI untuk mengonfigurasi server dan tautan dengan backend.

Akustik-fastspeech2 (khusus)
Kinerja yang wajar dengan memanfaatkan pembelajaran transfer untuk personalisasi dengan sejumlah kecil data
Menyediakan API yang dapat dibuat dengan fine-tune dalam kumpulan data Korea secara real time

Menurut fine_tune_transcript.txt milik folder dataset, merekam 100 kalimat dengan nomor dengan smartphone dan mengonversi file M4A ke file WAV dengan tingkat pengambilan sampel 16000. (FFMPEG)

Seperti yang ditunjukkan pada gambar, 100 file WAV yang dikonversi ditambahkan ke folder awal Anda.

Modifikasi kode model menurut fine-tune
- Fastspeech2 dan modifikasi dan integrasi HIFI-GAN
- Dataset, CKPT, dan Direktori Hasil dibagi menjadi direktori tingkat atas berdasarkan dataset
Preprocess mudah, kereta api, sintesis melalui skrip shell
- Dengan mengubah direktori dataset
Berikan gambar Docker yang unik
- Berikan gambar yang dapat dilakukan segera tanpa menambahkan paket ketergantungan tambahan yang kompleks
- Impor Gambar Terbaru Melalui Tautan Hub Docker

Ini cocok dengan nama file FastSpeech2 dan HiFi-Gan pra-terlatih CKPT dan menyimpannya di setiap model.
(FastSpeech2: 30.000 Langkah Pembelajaran / HiFi -Gan -Jungil King's Resmi Pretated -University -University)
Untuk belajar dan sintesis, kami memuat dan menjalankan gambar Docker yang berisi semua paket dependen.
```
 docker pull hws0120/e2e_speech_synthesis 
```
Langkah -langkah run_fs2_preprocessing.sh terhubung ke Docker dengan perintah conda dan menginstal paket python jamo.
```
 conda activate aligner
pip install jamo
```
Akhir lingkungan virtual untuk melakukan run_fs2_train atau sintesis.
```
 conda activate base
```

Ketika FastSpeech2 5000 Step Learning selesai, jalankan skrip HIFI-GAN.

 sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)