Автономный трубопровод для создания обложки с любым обученным AI -голосом RVC V2 из видео YouTube или локальным аудиофайлом. Для разработчиков, которые могут захотеть добавить функциональность пения в своего помощника ИИ/Чатбот/VTUBER, или для людей, которые хотят слышать, как их любимые персонажи поют свою любимую песню.
Showcase: https://www.youtube.com/watch?v=2qzue4wm7cm
Руководство по настройке: https://www.youtube.com/watch?v=pdlhk4vvhqk

Webui находится в постоянном разработке и тестировании, но вы можете попробовать это прямо сейчас как на локальном, так и на Colab!
Установите и вытащите любые новые требования и изменения, открыв окно командной строки в каталоге AICoverGen и запустив следующие команды.
pip install -r requirements.txt
git pull
Для пользователей Colab просто нажмите Runtime в верхней навигационной строке ноутбука Colab и Disconnect and delete runtime в раскрывающемся меню. Затем следуйте инструкциям в ноутбуке для запуска WebUI.
Для тех, у кого нет достаточно мощного графического процессора NVIDIA, вы можете попробовать Aicovergen, используя Google Colab.
Для тех, кто сталкивается с проблемами с ноутбуком Google Colab, отключившись через несколько минут, вот альтернатива, которая не использует WebUI.
Для тех, кто хочет запустить это локально, следуйте руководству по настройке ниже.
Следуйте инструкциям здесь, чтобы установить GIT на вашем компьютере. Также следуйте этому руководству, чтобы установить Python версию 3.9, если вы еще этого не сделали. Использование других версий Python может привести к конфликтам зависимости.
Следуйте инструкциям здесь, чтобы установить FFMPEG на ваш компьютер.
Следуйте инструкциям здесь, чтобы установить SOX и добавить его в среду Path Windows.
Откройте окно командной строки и запустите эти команды, чтобы клонировать весь этот репозиторий и установить необходимые дополнительные зависимости.
git clone https://github.com/SociallyIneptWeeb/AICoverGen
cd AICoverGen
pip install -r requirements.txt
Запустите следующую команду, чтобы загрузить необходимые модели вокального разделения MDXNET и базовую модель Hubert.
python src/download_models.py
Чтобы запустить Aicovergen Webui, запустите следующую команду.
python src/webui.py
| Флаг | Описание |
|---|---|
-h , --help | Покажите это сообщение справки и выход. |
--share | Создайте публичный URL. Это полезно для запуска веб -интерфейса в Google Colab. |
--listen | Сделайте веб -интерфейс доступным из вашей локальной сети. |
--listen-host LISTEN_HOST | Имя хоста, которое будет использовать сервер. |
--listen-port LISTEN_PORT | Порт прослушивания, который будет использовать сервер. |
После того, как появится следующее выходное сообщение, Running on local URL: http://127.0.0.1:7860 , вы можете нажать на ссылку, чтобы открыть вкладку с Webui.

Перейдите на вкладку Download model , вставьте ссылку загрузки в модель RVC и дайте ей уникальное имя. Вы можете найти Discord AI Hub, где уже доступны обученные голосовые модели для загрузки. Вы можете ссылаться на примеры того, как должна выглядеть ссылка загрузки. Загруженный файл ZIP должен содержать файл .pth Model и необязательный файл .index.
Как только 2 поля ввода заполнены, просто нажмите Download ! После того, как в выходном сообщении говорится, что [NAME] Model successfully downloaded! , вы должны иметь возможность использовать его на вкладке Generate после нажатия кнопки моделей обновления!

Для людей, которые обучали модели RVC V2 на местном уровне и хотели бы использовать их для поколений AI. Перейдите на вкладку Upload model и следуйте инструкциям. После того, как в выходном сообщении говорится, что [NAME] Model successfully uploaded! , вы должны иметь возможность использовать его на вкладке Generate после нажатия кнопки моделей обновления!

Update , если вы добавили файлы вручную в каталог RVC_Models, чтобы обновить список. После того, как все основные параметры заполнены, нажмите Generate , и обложка, сгенерированная ИИ, должна отображаться менее чем за несколько минут в зависимости от вашего графического процессора.
Расципку (при необходимости) и перенесите файлы .pth и .index в новую папку в каталоге RVC_Models. Каждая папка должна содержать только один .pth и один .index файл.
Структура каталогов должна выглядеть примерно так:
├── rvc_models
│ ├── John
│ │ ├── JohnV2.pth
│ │ └── added_IVF2237_Flat_nprobe_1_v2.index
│ ├── May
│ │ ├── May.pth
│ │ └── added_IVF2237_Flat_nprobe_1_v2.index
│ ├── MODELS.txt
│ └── hubert_base.pt
├── mdxnet_models
├── song_output
└── src
Чтобы запустить конвейер генерации обложки AI с помощью командной строки, запустите следующую команду.
python src/main.py [-h] -i SONG_INPUT -dir RVC_DIRNAME -p PITCH_CHANGE [-k | --keep-files | --no-keep-files] [-ir INDEX_RATE] [-fr FILTER_RADIUS] [-rms RMS_MIX_RATE] [-palgo PITCH_DETECTION_ALGO] [-hop CREPE_HOP_LENGTH] [-pro PROTECT] [-mv MAIN_VOL] [-bv BACKUP_VOL] [-iv INST_VOL] [-pall PITCH_CHANGE_ALL] [-rsize REVERB_SIZE] [-rwet REVERB_WETNESS] [-rdry REVERB_DRYNESS] [-rdamp REVERB_DAMPING] [-oformat OUTPUT_FORMAT]
| Флаг | Описание |
|---|---|
-h , --help | Покажите это сообщение справки и выход. |
-i SONG_INPUT | Ссылка на песню на YouTube или PATH на локальный аудиофайл. Должен быть заключен в двойные кавычки для окон и отдельных кавычек для Unix-подобных систем. |
-dir MODEL_DIR_NAME | Имя папки в каталоге RVC_Models, содержащий ваши файлы .pth и .index для определенного голоса. |
-p PITCH_CHANGE | Изменение шага вокала ИИ в октавах. Установите на 0 без изменений. Как правило, используйте 1 для мужчин в женские преобразования и -1 для наоборот. |
-k | Необязательный. Можно добавить, чтобы сохранить все промежуточные аудиофайлы. Например, изолированный вокал ИИ/Инструменталы. Оставься, чтобы сэкономить место. |
-ir INDEX_RATE | Необязательный. По умолчанию 0,5. Контролируйте, сколько акцента ИИ уйти в вокале. 0 <= index_rate <= 1. |
-fr FILTER_RADIUS | Необязательный. По умолчанию 3. Если> = 3: применить среднюю среднюю фильтрацию фильтрации к результатам собранного шага. 0 <= filter_radius <= 7. |
-rms RMS_MIX_RATE | Необязательный. По умолчанию 0,25. Управляйте, сколько использовать громкость оригинального вокала (0) или фиксированную громкость (1). 0 <= rms_mix_rate <= 1. |
-palgo PITCH_DETECTION_ALGO | Необязательный. По умолчанию RMVPE. Лучший вариант-RMVPE (ясность в вокале), затем Mangio-Crepe (более плавный вокал). |
-hop CREPE_HOP_LENGTH | Необязательный. По умолчанию 128. Управляет, как часто он проверяет на наличие изменений шага в миллисекундах при конкретном использовании Algo Mangio-Crepe. Более низкие значения приводят к более длительным конверсии и более высокому риску голосовых трещин, но лучше точности высоты. |
-pro PROTECT | Необязательный. По умолчанию 0,33. Контролируйте, сколько из оригинальных вокала и безмолвных согласных, чтобы уйти в вокале ИИ. Установите 0,5, чтобы отключить. 0 <= защита <= 0,5. |
-mv MAIN_VOCALS_VOLUME_CHANGE | Необязательный. По умолчанию 0. Управляющий громкость основного вокала ИИ. Используйте -3, чтобы уменьшить объем на 3 децибела, или 3, чтобы увеличить объем на 3 децибела. |
-bv BACKUP_VOCALS_VOLUME_CHANGE | Необязательный. По умолчанию 0. Управление громкость резервного вокала AI. |
-iv INSTRUMENTAL_VOLUME_CHANGE | Необязательный. По умолчанию 0. Управляющий объем фоновой музыки/инструменталов. |
-pall PITCH_CHANGE_ALL | Необязательный. По умолчанию 0. Измените шаг/ключ фоновой музыки, резервного вокала и вокала искусственного интеллекта в полутоне. Немного снижает качество звука. |
-rsize REVERB_SIZE | Необязательный. По умолчанию 0,15. Чем больше комната, тем дольше время реверберации. 0 <= Reverb_size <= 1. |
-rwet REVERB_WETNESS | Необязательный. По умолчанию 0,2. Уровень вокала ИИ с реверберацией. 0 <= Reverb_Wetness <= 1. |
-rdry REVERB_DRYNESS | Необязательный. По умолчанию 0,8. Уровень вокала ИИ без реверберации. 0 <= Reverb_Dryness <= 1. |
-rdamp REVERB_DAMPING | Необязательный. По умолчанию 0,7. Поглощение высоких частот в реверберации. 0 <= Reverb_Damping <= 1. |
-oformat OUTPUT_FORMAT | Необязательный. По умолчанию mp3. WAV для лучшего качества и большого размера файла, mp3 для достойного качества и небольшого размера файла. |
Использование конвертированного голоса для следующих целей запрещено.
Критикуя или нападая на людей.
Выступая за конкретные политические позиции, религии или идеологии.
Публично отображая сильно стимулирующие выражения без правильного зонирования.
Продажа голосовых моделей и сгенерированных голосовых клипов.
Выражение первоначального владельца голоса со злонамеренными намерениями причинить вред/навредить другим.
Мошеннические цели, которые приводят к краже личных данных или мошенническим телефонным звонкам.
Я не несет ответственности за какие -либо прямые, косвенные, косвенные, случайные или специальные убытки, возникающие из -за или каким -либо образом связаны с использованием/неправильным использованием или неспособностью использовать это программное обеспечение.