Английский |中文简体|日本語| 한국어 | Тюркч
С нулевым выстрелом TTS: введите 5-секундный вокальный образец и испытайте мгновенное преобразование текста в речь.
Несколько выстрелов TTS: тонкая настройка модели всего лишь 1 минуты обучающих данных для улучшения сходства голоса и реализма.
Крестная поддержка: вывод в языках, отличных от набора обучения, в настоящее время поддерживает английский, японский, корейский, кантонский и китайский.
Инструменты WebUI: интегрированные инструменты включают в себя разделение голосового сопровождения, сегментацию автоматического обучения, китайский ASR и текстовую маркировку, помощь новичкам в создании учебных наборов и моделей GPT/Sovits.
Проверьте наше демонстрационное видео здесь!
Невидимые ораторы с несколькими выстрелами из тонкой настройки демо:
Руководство пользователя: 简体中文 | Английский
Для пользователей в Китае вы можете нажать здесь, чтобы использовать Autodl Cloud Docker, чтобы испытать полную функциональность в Интернете.
Примечание: Numba == 0,56,4 требует PY <3.11
Если вы пользователь Windows (протестировано с помощью Win> = 10), вы можете загрузить интегрированный пакет и дважды щелкнуть на Go-webui.bat, чтобы запустить GPT-Sovits-Webui.
Пользователи в Китае могут скачать пакет здесь.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shПримечание. Модели, обученные графическим процессорам на Mac, приводят к значительно более низкому качеству по сравнению с моделями, обученными другим устройствам, поэтому мы временно используем процессоры.
xcode-select --install .brew install ffmpeg .conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' Загрузите и поместите ffmpeg.exe и ffprobe.exe в root gpt-sovits.
Установить Visual Studio 2017 (только корейский TTS)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
Как указано выше, измените соответствующие параметры на основе вашей фактической ситуации, затем запустите следующую команду:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
Пользователи в Китае могут скачать все эти модели здесь.
Загрузите предварительные модели из моделей GPT-Sovits и поместите их в GPT_SoVITS/pretrained_models .
Загрузите модели G2PW от G2PWModel_1.1.zip, раскапывание и переименование в G2PWModel , а затем поместите их в GPT_SoVITS/text . (Только для китайских TTS)
Для UVR5 (дополнительно для UVR5 (вокал/аккомпанемент, дополнительно), загружайте модели с веса UVR5 и поместите их в tools/uvr5/uvr5_weights .
Для китайского ASR (дополнительно) загружайте модели с модели Damo ASR, модели Damo VAD и Damo Punc Model и поместите их в tools/asr/models .
Для английского или японского ASR (дополнительно) загружайте модели из более быстрого Whispper Light V3 и поместите их в tools/asr/models . Кроме того, другие модели могут оказывать аналогичный эффект с меньшим количеством диска.
Annotation TTS .LIST Формат файла:
vocal_path|speaker_name|language|text
Языковой словарь:
Пример:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
Дважды щелкните go-webui.bat или используйте go-webui.ps1 , если вы хотите переключиться на V1, затем дважды щелкните go-webui-v1.bat или используйте go-webui-v1.ps1
python webui.py < language(optional) >Если вы хотите переключиться на V1, то тогда
python webui.py v1 < language(optional) >Или на Maunally Switch версию в WebUI
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
Дважды щелкните go-webui-v2.bat или используйте go-webui-v2.ps1 , затем откройте Webui с выводом по адресу 1-GPT-SoVITS-TTS/1C-inference
python GPT_SoVITS/inference_webui.py < language(optional) >ИЛИ
python webui.py Затем откройте WebUI с выводом по адресу 1-GPT-SoVITS-TTS/1C-inference
Новые функции:
Поддерживать корейский и кантонский
Оптимизированный фронт текста
Предварительно обученная модель простирается от 2k часов до 5 тыс. Часов
Улучшение качества синтеза для низкокачественного эталонного звука
Более подробная информация
Используйте V2 из среды V1:
pip install -r requirements.txt для обновления некоторых пакетов
Клон последние коды от GitHub.
Загрузите предварительные модели V2 от HuggingFace и поместите их в GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Китайский V2 Дополнительный: g2pwmodel_1.1.zip (загрузка моделей G2PW, раскипка и переименования в G2PWModel , а затем поместите их в GPT_SoVITS/text .
Высокий приоритет:
Функции:
Используйте командную строку, чтобы открыть WebUI для UVR5
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
Вот как сегментация звука набора данных выполняется с помощью командной строки
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
Так выполняется обработка набора данных ASR с использованием командной строки (только китайский)
python tools/asr/funasr_asr.py -i <input> -o <output>
Обработка ASR выполняется с помощью FAST_WHISPER (Marking ASR, кроме китайца)
(Без баров прогресса, производительность графического процессора может привести к задержкам времени)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
Пользовательский путь сохранения списка включен
Особая благодарность следующим проектам и участникам:
Благодаря @naozumi520 за предоставление кантонского обучения и за руководство по знаниям, связанным с кантонскими.