Status : Arsip (kode disediakan apa adanya, tidak ada pembaruan yang diharapkan)
Kami mencoba mengkloning suara untuk speaker yang konten independen. Ini berarti bahwa kita harus meraih identitas pembicara daripada konten yang mereka bicarakan. Kami mencoba melakukan ini dengan membuat speaker menanamkan ruang untuk speaker yang berbeda.
Embeddings pembicara mencoba mewakili identitas pembicara (berbagai aspek suara seperti nada, aksen, dll dari pembicara), Anda dapat menganggap ini sebagai sidik jari suara pembicara.
Kami sekarang mengacu pada makalah berikut untuk implementasi kami:-
Arsitektur untuk model generatif dan pembicara multi-speaker telah dibangun.
Model generatif multi-speaker telah dilatih untuk adaptasi speaker untuk 84 speaker menggunakan VCTK-Dataset telah selesai pada NVIDIA-V100 GPU untuk zaman 190000.
Dataset VCTK dibagi untuk pelatihan dan pengujian: 84 pembicara digunakan untuk melatih model multi-speaker, 8 pembicara untuk validasi, dan 16 pembicara untuk kloning.
Berikut ini akan melatih model pada 84 speaker pertama dalam dataset.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
Ini bisa memakan waktu hingga 20 jam menggunakan GPU.
Untuk mengadaptasi model ke pembicara tertentu setelah pelatihan awal
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
Ini akan memakan rata -rata 10 hingga 20 menit.
Sejauh ini beberapa suara kerucut yang kami miliki menggunakan tautan adaptasi pembicara
Implementasi model generatif multi-speaker terinspirasi dari https://github.com/r9y9/deepvoice3_pytorch
Suara saraf kloning dengan beberapa sampel
Jika Anda menemukan kode di repositori yang berguna, silakan mengutipnya menggunakan:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}