Neural Voice Cloning With Few Samples скачать - Neural Voice Cloning With Few Samples Скачать исходный код

Neural Voice Cloning With Few Samples

AI Исходный код

1.0.0

Скачать

Статус : Архив (код предоставляется как есть, обновления не ожидают)

Клонирование нейронного голоса с оттенками

Мы пытаемся клонировать голоса для динамиков, что является независимым от контента. Это означает, что мы должны охватывать личность говорящего, а не контент, на котором он говорит. Мы стараемся сделать это, заставив динамик встраивать пространство для разных динамиков.

Справочник оратора пытается представить личность говорящего (различные аспекты голоса, такие как высота, акцент и т. Д. Говоря), вы можете считать это как голосовой отпечаток динамика.

Мы сейчас имеем в виду следующую статью для нашей реализации:-

«Клонирование нейронного голоса с несколькими образцами» от Baidu

Статус

Была построена архитектура для модели генеративного и динамика с несколькими динамиками.

Генеративная модель с несколькими динамиками была обучена адаптации динамиков для 84 динамиков с использованием VCTK-Dataset была завершена на графическом процессоре NVIDIA-V100 для эпохах 190000 года.

Спикер адапация

Набор данных VCTK был разделен для обучения и тестирования: 84 динамика используются для обучения модели с несколькими динамиками, 8 динамиков для проверки и 16 динамиков для клонирования.

Обучение для адаптации докладчика

Следующее обучит модель первым 84 динамикам в наборе данных.

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

Это может занять до 20 часов с помощью графического процессора.

Чтобы адаптировать модель к конкретному оратору после первоначального обучения

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

Это займет в среднем от 10 до 20 минут.

Некоторые клонированные голоса

Пока что некоторые из голосов, которые мы получили, используя адаптацию динамика

Благодарности

Реализация генеративной модели с несколькими динамиками была вдохновлена https://github.com/r9y9/deepvoice3_pytorch
Клонирование нейронного голоса с несколькими образцами

Цитировать

Если вы найдете полевой код в репозитории, пожалуйста, цитируйте его, используя:

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

Расширять

Дополнительная информация