so vits svc fork скачать - so vits svc fork исходный код скачать

so vits svc fork

Другой исходный код

v4.2.26

Скачать

Softvc Vits Singing Voice Veversion вилка

简体中文

Вилка so-vits-svc с поддержкой в реальном времени и значительно улучшенным интерфейсом . На основе ветви 4.0 (v1) (или 4.1 ) и модели совместимы. 4.1 Модели не поддерживаются. Другие модели также не поддерживаются.

Больше не поддерживается

Причины

В течение года технология развивалась чрезвычайно, и есть много лучших альтернатив
Надеялся создать более модульный, простой в установке репозиторий, но у него не было навыков, времени, денег для этого
Pysimplegui больше не Lgpl
Использование Typer становится более популярным, чем напрямую с помощью клика

Альтернативы

Всегда остерегайтесь очень немногих влиятельных лиц, которые достаточно удивлены любым новым проектом/технологиями. Вам нужно взять каждый пост социальной сети с полупрохождением.

Высокий бум голоса, который произошел в 2023 году, подошел к концу, и многие разработчики, а не только те, которые в этом репозитории не были очень активными.

Здесь слишком много альтернатив, но:

Семейство RVC: IAhispano/Applio (MIT), RVC (AGPL) Фумиамы и оригинальный RVC (MIT)
VCClient (MIT и т. Д.) Вполне активно поддерживается и предлагает веб-графический интерфейс для конверсии в реальном времени.
Рыба-диффузия старалась быть довольно модульной, но не совсем активно поддерживается.
YXLLLC/DDSP -SVC - Новые выпуски выпускаются время от времени. yxlllc/Reflow-Vae-Svc
Coqui-AI/TTS был для TTS, но был частично модульным. Однако, к сожалению, это больше не поддерживается.

В других местах несколько стартапов улучшили и продали голосовые изменения (вероятно, для получения прибыли).

Обновления этого хранилища были ограничены техническим обслуживанием с весны 2023 года. Здесь трудно сузить список альтернатив, но, пожалуйста, попробовать другие проекты, если вы ищете правила голоса с еще лучшей производительностью (особенно с точки зрения задержки, отличной от качества). > Тем не менее, этот проект может быть идеальным для тех, кто хочет попробовать преобразование голоса на данный момент (потому что его легко установить).

Функции недоступны в оригинальном репо

Преобразование голоса в реальном времени (усиление в v1.1.0)
Частично интегрирует QuickVC
Исправлено неправильное использование ContentVec в исходном хранилище. ¹
Более точная оценка высоты тона с использованием CREPE .
GUI и унифицированный CLI доступны
~ 2 раза быстрее тренировки
Готовы к использованию, просто установив с pip .
Автоматически загружайте предварительно подготовленные модели. Не нужно устанавливать fairseq .
Код полностью отформатирован с черным, изопортом, автофляцией и т. Д.

Установка

Вариант 1. Один щелчок легкой установки

Этот файл BAT автоматически выполнит шаги, описанные ниже.

Вариант 2. Ручная установка (с помощью PIPX, экспериментальный)

1. Установка PIPX

Windows (версия разработки, необходимая из -за PYPA/PIPX#940):

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/macOS:

python -m pip install --user pipx
python -m pipx ensurepath

2. Установка SO-VITS-SVC-Fork

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

Вариант 3. Ручная установка

Создание виртуальной среды

Windows:

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/macOS:

python3.11 -m venv venv
source venv/bin/activate

Anaconda:

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

Установка без создания виртуальной среды может привести к PermissionError , если Python установлен в программных файлах и т. Д.

Установите это через PIP (или ваш любимый менеджер пакетов, который использует PIP):

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

Примечания

Если GPU не доступен или использует MacOS, просто удалите pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . Депутаты, вероятно, поддерживаются.
Если вы используете графический процессор AMD на Linux, замените --index-url https://download.pytorch.org/whl/cu121 с --index-url https://download.pytorch.org/whl/nightly/rocm5.7 AMD -графические процессоры не поддерживаются в Windows (#120).

Обновлять

Пожалуйста, регулярно обновляйте этот пакет, чтобы получить последние функции и исправления ошибок.

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

Использование

Вывод

Графический интерфейс

GUI запускается со следующей командой:

svcg

Кли

Реальное время (от микрофона)

svc vc

Файл

svc infer source.wav

Предварительные модели доступны для обнимающего лица или Civitai.

Примечания

При использовании WSL обратите внимание, что WSL требует дополнительной настройки для обработки аудио, а графический интерфейс не будет работать без поиска аудиоустройства.
В выводе в режиме реального времени, если на входе есть шум, модель Hubert также отреагирует на них. Рассмотрите возможность использования приложений по снижению шума в реальном времени, таких как RTX Voice в этом случае.
Модели, отличные от 4.0v1 или этого репозитория, не поддерживаются.
Графический вывод требует не менее 4 ГБ Врам. Если это не работает, попробуйте вывод процессора, так как он достаточно быстр. ²

Обучение

Перед тренировкой

Если ваш набор данных имеет BGM, удалите BGM, используя программное обеспечение, такое как Ultimate Vocal Remover. 3_HP-Vocal-UVR.pth или UVR-MDX-NET Main рекомендуется. ³
Если ваш набор данных представляет собой длинный аудиофайл с одним динамиком, используйте svc pre-split для разделения набора данных на несколько файлов (с помощью librosa ).
Если ваш набор данных представляет собой длинный аудиофайл с несколькими динамиками, используйте svc pre-sd чтобы разделить набор данных на несколько файлов (с помощью pyannote.audio ). Дальнейшая ручная классификация может потребоваться из -за проблем точности. Если ораторы говорят с различными стилями речи, устанавливаются-мимические высказывания больше, чем фактическое количество динамиков. Из-за неразрешенных зависимостей, пожалуйста, установите pyannote.audio вручную: pip install pyannote-audio .
Чтобы вручную классифицировать аудиофайлы, доступна svc pre-classify . Клавиши стрелки вверх и вниз могут использоваться для изменения скорости воспроизведения.

Облако

⁴

Если у вас нет доступа к графическому процессору с более чем 10 ГБ VRAM, бесплатный план Google Colab рекомендуется для пользователей света, и для тяжелых пользователей рекомендуется план Pro/рост. И наоборот, если у вас есть доступ к высококачественному GPU, использование облачных сервисов не рекомендуется.

Местный

Разместите свой набор данных, например, dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (подпапки и не имена файлов, не являющихся ASCII, являются приемлемыми) и запустите:

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

Примечания

Продолжительность звука набора данных на файл должна составлять <~ 10S.
Нужна не менее 4 ГБ Врам. ⁵
Рекомендуется максимально увеличить batch_size в config.json перед командой train , чтобы соответствовать емкости VRAM. Установка batch_size на auto-{init_batch_size}-{max_n_trials} (или просто auto ) автоматически увеличивает batch_size до тех пор, пока не произойдет ошибка OOM, но в некоторых случаях не может быть полезна.
Чтобы использовать CREPE , замените svc pre-hubert на svc pre-hubert -fm crepe .
Чтобы правильно использовать ContentVec , замените svc pre-config на -t so-vits-svc-4.0v1 . Обучение может занять немного больше времени, потому что некоторые веса сбрасываются из -за повторного использования унаследованных весов генератора.
Чтобы использовать MS-iSTFT Decoder , замените svc pre-config на svc pre-config -t quickvc .
Удаление тишины и нормализация объема автоматически выполняются (как в восходящем репо) и не требуются.
Если вы тренировались в большом, без авторских прав, рассмотрите возможность выпустить его как начальную модель.
Для получения дополнительной информации (например, параметров и т. Д.) Вы можете увидеть вики или дискуссии.

Дополнительная помощь

Для получения более подробной информации запустите svc -h или svc <subcommand> -h .

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

Внешние ссылки

Видеоурок

Участники

Спасибо этим замечательным людям (ключ эмодзи):

_34J ? ? ? ? ️ ✅?	_{GarrettConway} ? ?	_Blueamulet ? ?	_{Rowathawayaccount01} ?	_緋 ?	_{Лордмау5} ? ? ? ?	_DL909 ?
_{Удовлетворение256} ?	_{Пьерлуиджи Загария} ?	_{Ruckusmattster} ?	_Desuka-Art ?	_Привет	_{Занудный грызун} ?	_谢宇
_ColdCawfee ?	_Sbersier ? ? ?	_{Мельдонер} ? ?	_Mmodeusher ?	_{Алондан} ?	_{Лайккез} ?	_{Duct ленточные игры} ?
_{Xianglong он} ?	_75AOSU ?	_Tonyco82 ?	_yxlllc ?	_{пробитый} ?	_{EscoolioingleSias} ? ? ?	_{Блэксингх} ?
_{Мгс. М. Тойиб Антарнаса} ?	_Exosfeer ?	_{Гуранон} ? ?	_{Александр Кумис}	_{Ацекагами} ?	_Highupech ?	_Скорпи
_Maximxls	_Star3lord ?	_Форкоз ?	_{Зеруи Чен} ?	_{Рои Шенберг} ? ?	_Джасас ?	_Onako2
_4ll0w3v1l	_J5y0v6b ? ️	_{Марцеллоцирелли} ?	_{Прияншу Патель}	_{Анна Горшунова} ?

Этот проект следует за спецификацией всех контролей. Взносы любого вида приветствуются!

#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Если вы зарегистрируете реферальный код, а затем добавите метод оплаты, вы можете сэкономить около 5 долларов США на ежемесячном биллинге вашего первого месяца. Обратите внимание, что обе реферальные вознаграждения - это кредиты Paperpace, а не деньги. Это было сложное решение, но вставлено потому, что отладка и обучение первоначальной модели требует большого количества вычислительной мощности, а разработчик - студент. ↩
#456 ↩

Расширять

Дополнительная информация