FastSpeech2 Pytorch Korean Multi Speaker Unduh - FastSpeech2 Pytorch Korean Multi Speaker Sumber Unduh

Unduh

FastSpeech2-Pytorch-Korean-Multi-speaker

Proyek ini diimplementasikan dalam TTS multi-speaker Korea dengan menggabungkan vocoder hifi dengan fastspeech2.

Proyek ini bertujuan untuk mengembangkan TTS proyek 'speaker AI yang dipersonalisasi' . Ini digantikan oleh suara orang -orang di sekitar yang Anda inginkan, bukan suara 'Siri', 'Bixby' dan 'Ari'. (Kel. Pasangan, putra, putri, orang tua, dll.)
Untuk mengatasi produksi speaker AI langsung, alih-alih kinerja TACOTRON2 dan Waveglow yang sangat baik, Mostspeech2 dan model Vocoder berbasis GAN yang tidak diadopsi baik mengadopsi kualitas dan kecepatan produksi mempertimbangkannya.
Berdasarkan Kode Sumber FastSpeech2 yang sesuai dengan Dataset Korea KSS yang diimplementasikan di DLLAB.

Penggunaan model akustik-fastspeech2, vokoder-hifigan untuk kecepatan sintesis cepat dan kinerja tinggi
Transfer pembelajaran digunakan untuk dipersonalisasi dengan sejumlah kecil data ( ~~+ Kloning Zero-Shot~~ Proyek sampingan )
Implementasi penyematan pembicara untuk mempelajari multi-speaker untuk pra-pelatihan
Konfigurasi pipa sehingga proses pembelajaran dilakukan dalam dataset Korea ke ujung ke ujung

Untuk pra-pelatihan, pelajari menggunakan suara percakapan gratis AIHUB.
- Rata -rata, 1 jam dan 30 menit, belajar dengan 30 pria dan 28 data wanita dengan pertimbangan kualitas
- Setiap pembicara memberikan ID nomor unik dalam proses pretreatment
Untuk fine-tune, lihat skrip KSS, dan rekam suara pembicara baru dalam 100 kalimat-300 kalimat-600 kalimat untuk mengevaluasi kinerja.

Konten yang ditambahkan dalam kode yang digunakan adalah sebagai berikut.

Implementasi Embedding Speaker (FastSpeech2 multi-speaker Korea)
- Tambahkan lapisan embedding ke model
- Output Encoder dan Implementasi Kode (Embedding, Speaker Integrator)
- Get_speakers () Implementasi fungsi yang mengimpor dan menyimpan informasi penyematan
Data_preprocessing.py-end-end-end-data implementasi pretreatment yang berisi semua item di bawah ini
Respons terhadap sintesis kalimat panjang yang tidak stabil
- Setel untuk dilampirkan setelah disintesis di unit karakter khusus (unit kalimat)
Mengimpor kode sumber G2PK dan hanya menerapkan angka dan bahasa Inggris
- Ubah paket G2PK yang ada menjadi hanya bahasa Korea tanpa instalasi PIP.

Simpan direktori WAV dan file JSON atau transkrip di Dataset/Data Name Directory seperti yang ditunjukkan.
Pelajari Montral Forced Alinger di Kaldi untuk belajar TextGrid dengan mempelajari data audio.
```
 # lab 생성, mfa 학습, lab 분리
python data_preprocessing.py 
```
Simpan generator yang dipelajari oleh HiFi-Gan untuk evaluasi selama belajar di direktori Vocoder/Pretained_Models.

Tulis data secara langsung sesuai dengan format, atau buat transkrip dengan merujuk pada fungsi data_preprocessing.py
Simpan transkrip yang dihasilkan dan direktori data dalam dataset dan jalankan data_proprocessing.py
Pekerjaan MFA selesai dan file TextGrid.zip dibuat di direktori teratas
Preprocess.py melakukan dan memeriksa folder pretrocessed.

Siapkan jalur ukuran batch hparam.py, generator hifi-gan dan mulailah belajar.
```
 python train.py
```
Jika Anda belajar, Anda dapat belajar dengan menambahkan restore_step.
```
 python train.py --restore_step [step]
```

Jika Anda melakukan pra-pelatihan untuk multi-speaker, speaker storage_info.json secara otomatis dihasilkan selama pembelajaran pra-kereta
Letakkan speaker_info.json di bagian atas direktori
Jalankan Python dengan cara yang sama seperti melakukan studi di kereta
```
 python train.py --restore_step [pre-train의 step]
```

Pipa ini adalah pipa aliran untuk pembelajaran dan penciptaan TTS yang sesuai dengan layanan.

Transfer_learning_pipeline

Wadah sebagian besar diklasifikasikan sebagai empat.
1. Wadah basis data yang berisi jalur dan informasi pengguna data
2. Pembuatan Transkrip, Penyederhanaan Nama File, Ekstraksi TextGrid dengan MFA, wadah preprocessing data untuk model
3. Mempelajari wadah untuk pra-pelatihan
4. Mempelajari wadah untuk menyempurnakan data baru
Dalam situasi layanan yang sebenarnya, hanya tiga kontainer yang akan bekerja.

Memperluas

Informasi Tambahan

Aplikasi Terkait

Direkomendasikan untuk Anda

Informasi Terkait Semua