Статус : Архив (код предоставляется как есть, обновления не ожидают)
Мы пытаемся клонировать голоса для динамиков, что является независимым от контента. Это означает, что мы должны охватывать личность говорящего, а не контент, на котором он говорит. Мы стараемся сделать это, заставив динамик встраивать пространство для разных динамиков.
Справочник оратора пытается представить личность говорящего (различные аспекты голоса, такие как высота, акцент и т. Д. Говоря), вы можете считать это как голосовой отпечаток динамика.
Мы сейчас имеем в виду следующую статью для нашей реализации:-
Была построена архитектура для модели генеративного и динамика с несколькими динамиками.
Генеративная модель с несколькими динамиками была обучена адаптации динамиков для 84 динамиков с использованием VCTK-Dataset была завершена на графическом процессоре NVIDIA-V100 для эпохах 190000 года.
Набор данных VCTK был разделен для обучения и тестирования: 84 динамика используются для обучения модели с несколькими динамиками, 8 динамиков для проверки и 16 динамиков для клонирования.
Следующее обучит модель первым 84 динамикам в наборе данных.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
Это может занять до 20 часов с помощью графического процессора.
Чтобы адаптировать модель к конкретному оратору после первоначального обучения
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
Это займет в среднем от 10 до 20 минут.
Пока что некоторые из голосов, которые мы получили, используя адаптацию динамика
Реализация генеративной модели с несколькими динамиками была вдохновлена https://github.com/r9y9/deepvoice3_pytorch
Клонирование нейронного голоса с несколькими образцами
Если вы найдете полевой код в репозитории, пожалуйста, цитируйте его, используя:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}