Приложение голосового клонирования
Приложение Python/Pytorch для легко синтезирования человеческих голосов

Документация
Discord Server
Видеоид
Голосовой центр
Часто задаваемые вопросы
Системные требования
- Windows 10 или Ubuntu 20.04+ Операционная система
- 5 ГБ+ дисковое пространство
- NVIDIA GPU не менее 4 ГБ памяти и драйвера версии 456.38+ (необязательно)
Ключевые функции
- Автоматическое генерация наборов данных (с поддержкой субтитров и аудиокниг)
- Дополнительная языковая поддержка
- Местное и удаленное обучение
- Легкий старт поезда/остановка
- Импорт/экспорт данных
- Поддержка Multi GPU
Руководство
- Установка
- Создание набора данных
- Обучение
- Синтез
- Внесение изменений
Будущие улучшения
- Добавить поддержку Talknet
- Добавить выравнивание GTA для Hifi-Gan
- Улучшенная оценка размера партии
- AMD поддержка GPU
Другие ресурсы
- Отдаленная учебная тетрадь
- Попробуйте существующие голоса на uberduck.ai и вокаду
- Выбрать данные YouTube (создается DISKR33T#5880)
- Синтезировать в Colab (созданный Mega B#6696)
- Генерировать транскрипцию YouTube (созданную Mega B#6696)
- Wit.ai Транскрипция
Благодарности
В этом проекте используется переработанная версия Tacotron2. Все права принадлежат NVIDIA и следуют требованиям их лицензии BSD-3.
Кроме того, проект использует DSAlign, Silero, Deepspeech & Hifi-Gan.
Спасибо доктору Джону Батарду в Университете королевы в Белфасте за его поддержку на протяжении всего проекта.
Поддерживается Uberduck.ai, обратитесь к ним для живой модели хостинга.
Также большое спасибо членам Subreddit вокал -синтеза за их отзыв.
Наконец, спасибо всем, кто поднимает проблемы и внесла свой вклад в проект.