Notebook non-Tacotron-2-training-notebook
Tacotron 2 Notebook Pelatihan Mendukung Jepang, Prancis, dan Mandarin
Ringkasan
Buku catatan ini dimaksudkan untuk memberikan akses yang lebih mudah ke model pelatihan Tacotron 2 dalam bahasa selain bahasa Inggris. Saat ini, model Jepang (Talqu and Neutalk), Prancis, dan model pretrained mandarin dimasukkan, tetapi rencananya adalah untuk memasukkan lebih banyak di masa depan, seperti Jerman. Untuk bahasa Jepang, disarankan untuk menggunakan fonetik neutalk dan model pretrained.
Audio yang didukung
Audio untuk pelatihan harus 16-bit 22050Hz file mono wav. Jangan termasuk spasi dalam nama file. File seharusnya hanya menyertakan alphanumerics (setengah lebar), tanda hubung, dan garis bawah. Ini berarti tidak ada nama file Jepang atau Cina, atau diakritik. Klip audio harus 10 detik atau kurang untuk memfasilitasi pembelajaran. Berdasarkan tes saya, saya sarankan memiliki setidaknya 15 menit audio.
Transkripsi
File transkripsi harus berupa dokumen teks dengan setiap baris yang memiliki format berikut: wavs/{name_of_file}.wav|{text} . Gunakan salah satu G2P yang disertakan untuk mengonversi transkripsi ke input fonetik yang sesuai.
Pelatihan
Langkah-langkah dalam notebook harus agak jelas, saya harap. Unggah audio Anda ke WAVS/ folder sebelum memulai pelatihan. Berikut beberapa catatan yang perlu diingat:
- Ukuran batch idealnya menjadi faktor dari jumlah WAV yang Anda miliki. Misalnya, saat melatih model dengan 15 WAVS saya mengatur ukuran batch ke 5.
- Jika Anda memiliki GPU T4 di Colab, jangan atur ukuran batch lebih tinggi dari 14.
- Direktori keluaran untuk pelatihan harus di Google Drive jika Anda terputus.
- Saat Anda berlatih, pos pemeriksaan akan menumpuk. Hapus yang lama dan tempat sampah kosong agar penyimpanan drive Anda tersedia.
- Hentikan pelatihan saat Anda mencapai kerugian validasi yang sesuai. Misalnya, yang saya lakukan adalah: kurang dari 30 file = di bawah 0,07; 30-100 file = di bawah 0,09; 150+ file = di bawah 0,1; Lebih dari 30 menit data = di bawah 0,14
Atribusi
- Talqu Fonetic System oleh Haruqa (https://booth.pm/ja/items/2755336)
- Sistem Fonetik Jepang Neutalk oleh Neutrogic (https://github.com/neutrogic/neutalk)
- Talqu Pretrained Model oleh Haruqa (https://github.com/haruqa/tacotron2/releases)
- Neutalk Jepang dan Mandarin Pretrained Model oleh Neutrogic (https://github.com/neutrogic/neutalk)
- Model pretrained Prancis yang dibuat oleh Mildemelwe dan dilatih oleh neutrogik (https://github.com/neutrogic)
- Berbasis Kode Off dari Uberduck Tacotron 2 Training Notebook (https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp=sharing)
- Implementasi Tacotron 2 oleh NVIDIA (https://github.com/nvidia/tacotron2)