Melihat implementasi saya dari Tacotron dan DCTTS, banyak orang bertanya kepada saya, "Seberapa besar dataset bicara yang dibutuhkan untuk TT saraf?" atau "Bisakah Anda membuat model TTS dengan data pelatihan X jam/menit (s)?" Saya sepenuhnya menyadari pentingnya pertanyaan -pertanyaan itu. Ketika Anda merencanakan layanan menggunakan TTS, itu tidak selalu akan mendapatkan banyak sampel bicara. Saya ingin memberikan jawaban. Saya sangat melakukannya. Tapi sayangnya saya tidak punya jawaban. Satu -satunya hal yang saya tahu adalah bahwa saya bisa melatih model dengan sukses dengan sampel pidato lima jam yang saya ekstrak dari buku audio Kate Winslet. Saya belum mencoba lebih sedikit data dari itu. Saya bisa mencobanya, tetapi saya sebenarnya memiliki ide yang lebih baik. Karena saya memiliki model yang layak dilatih dengan dataset LJ Speech selama beberapa hari, mengapa saya tidak menggunakannya? Lagi pula, kita semua memiliki suara yang berbeda, tetapi cara kita berbicara bahasa Inggris tidak sama sekali berbeda.
Dalam dua repo di atas, saya melatih model TTS menggunakan semua sampel pidato dari dua selebriti favorit saya, Nick Offerman dan Kate Winslet, dari awal. Kali ini, saya hanya menggunakan satu menit dari sampel pidato. Berikut ini adalah sampel yang disintesis setelah 10 menit pelatihan fine-tuning. Apakah Anda pikir mereka terdengar seperti mereka?
Selain itu, saya mengumpulkan 10 sampel pidato selebritas keluarga modern dari YouTube, dan menghasilkan suara mereka, pelatihan pada sampel tersebut.
Periksa di sini untuk melihat detail model, kode sumber, dan model pretrained yang berfungsi sebagai benih.