Скачать GPT SoVITS - Скачать исходный код GPT SoVITS

GPT SoVITS

AI Исходный код

v2

Скачать

GPT-Sovits-Webui

Мощное несколько выстрелов конверсии голоса и Webui текста в речь.

Английский |中文简体|日本語| 한국어 | Тюркч

Функции:

С нулевым выстрелом TTS: введите 5-секундный вокальный образец и испытайте мгновенное преобразование текста в речь.
Несколько выстрелов TTS: тонкая настройка модели всего лишь 1 минуты обучающих данных для улучшения сходства голоса и реализма.
Крестная поддержка: вывод в языках, отличных от набора обучения, в настоящее время поддерживает английский, японский, корейский, кантонский и китайский.
Инструменты WebUI: интегрированные инструменты включают в себя разделение голосового сопровождения, сегментацию автоматического обучения, китайский ASR и текстовую маркировку, помощь новичкам в создании учебных наборов и моделей GPT/Sovits.

Проверьте наше демонстрационное видео здесь!

Невидимые ораторы с несколькими выстрелами из тонкой настройки демо:

Несколько.shot.fine.tuning.demo.mp4

Руководство пользователя: 简体中文 | Английский

Установка

Для пользователей в Китае вы можете нажать здесь, чтобы использовать Autodl Cloud Docker, чтобы испытать полную функциональность в Интернете.

Протестированные среды

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, Cuda 12.3
Python 3.9, Pytorch 2.2.2, MacOS 14.4.1 (Apple Silicon)
Python 3.9, Pytorch 2.2.2, устройства процессора

Примечание: Numba == 0,56,4 требует PY <3.11

Окна

Если вы пользователь Windows (протестировано с помощью Win> = 10), вы можете загрузить интегрированный пакет и дважды щелкнуть на Go-webui.bat, чтобы запустить GPT-Sovits-Webui.

Пользователи в Китае могут скачать пакет здесь.

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macOS

Примечание. Модели, обученные графическим процессорам на Mac, приводят к значительно более низкому качеству по сравнению с моделями, обученными другим устройствам, поэтому мы временно используем процессоры.

Установите инструменты командной строки XCODE, запустив xcode-select --install .
Установите FFMPEG, запустив brew install ffmpeg .
Установите программу, выполнив следующие команды:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Установить вручную

Установите ffmpeg

Пользователи Conda

conda install ffmpeg

Пользователи Ubuntu/Debian

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Пользователи Windows

Загрузите и поместите ffmpeg.exe и ffprobe.exe в root gpt-sovits.

Установить Visual Studio 2017 (только корейский TTS)

Пользователи MacOS

brew install ffmpeg

Установить зависимости

pip install -r requirements.txt

Использование Docker

Docker-Compose.yaml Configuration

Что касается тегов изображений: из -за быстрых обновлений в кодовой базе и медленного процесса упаковки и тестирования изображений, пожалуйста, проверьте Hub Docker на наличие в настоящее время упакованные последние изображения и выберите в соответствии с вашей ситуацией или, в качестве альтернативы, создайте локально, используя DockerFile в соответствии с вашими собственными потребностями.
Переменные среды:

IS_HALF: управление полуоперацией/двойной задачей. Обычно это причина, если содержание в соответствии с каталогами 4-Cnhubert/5-Wav32K не генерируется правильно во время шага «извлечения SSL». Приспособитесь к истинному или невольному в зависимости от вашей реальной ситуации.

Конфигурация объемов ， Корневый каталог приложения внутри контейнера установлен в /рабочее пространство. Docker-Compose.yaml. YAML перечисляет несколько практических примеров для загрузки/загрузки контента.
SHM_SIZE: доступная память по умолчанию для Docker Desktop на Windows слишком мала, что может вызвать ненормальные операции. Приспособитесь в соответствии с вашей собственной ситуацией.
В разделе «Развертывание», связанные с графическими процессорами, должны быть скорректированы осторожно в соответствии с вашей системой и фактическими обстоятельствами.

Бег с Docker Compose

 docker compose -f "docker-compose.yaml" up -d

Запуск с командой Docker

Как указано выше, измените соответствующие параметры на основе вашей фактической ситуации, затем запустите следующую команду:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

Предварительные модели

Пользователи в Китае могут скачать все эти модели здесь.

Загрузите предварительные модели из моделей GPT-Sovits и поместите их в GPT_SoVITS/pretrained_models .
Загрузите модели G2PW от G2PWModel_1.1.zip, раскапывание и переименование в G2PWModel , а затем поместите их в GPT_SoVITS/text . (Только для китайских TTS)
Для UVR5 (дополнительно для UVR5 (вокал/аккомпанемент, дополнительно), загружайте модели с веса UVR5 и поместите их в tools/uvr5/uvr5_weights .
Для китайского ASR (дополнительно) загружайте модели с модели Damo ASR, модели Damo VAD и Damo Punc Model и поместите их в tools/asr/models .
Для английского или японского ASR (дополнительно) загружайте модели из более быстрого Whispper Light V3 и поместите их в tools/asr/models . Кроме того, другие модели могут оказывать аналогичный эффект с меньшим количеством диска.

Формат набора данных

Annotation TTS .LIST Формат файла:

 vocal_path|speaker_name|language|text

Языковой словарь:

«ZH»: китайский
«Ja»: японский
'en': английский
'KO': корейский
«Юэ»: кантонский

Пример:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune и вывод

Откройте Webui

Интегрированные пользователи пакета

Дважды щелкните go-webui.bat или используйте go-webui.ps1 , если вы хотите переключиться на V1, затем дважды щелкните go-webui-v1.bat или используйте go-webui-v1.ps1

Другие

python webui.py < language(optional) >

Если вы хотите переключиться на V1, то тогда

python webui.py v1 < language(optional) >

Или на Maunally Switch версию в WebUI

Тонкая настройка

Автозаполнение пути теперь поддерживается

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

Открытый вывод Webui

Интегрированные пользователи пакета

Дважды щелкните go-webui-v2.bat или используйте go-webui-v2.ps1 , затем откройте Webui с выводом по адресу 1-GPT-SoVITS-TTS/1C-inference

Другие

python GPT_SoVITS/inference_webui.py < language(optional) >

ИЛИ

python webui.py

Затем откройте WebUI с выводом по адресу 1-GPT-SoVITS-TTS/1C-inference

V2 выпуск заметок

Новые функции:

Поддерживать корейский и кантонский
Оптимизированный фронт текста
Предварительно обученная модель простирается от 2k часов до 5 тыс. Часов
Улучшение качества синтеза для низкокачественного эталонного звука
Более подробная информация

Используйте V2 из среды V1:

pip install -r requirements.txt для обновления некоторых пакетов
Клон последние коды от GitHub.
Загрузите предварительные модели V2 от HuggingFace и поместите их в GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Китайский V2 Дополнительный: g2pwmodel_1.1.zip (загрузка моделей G2PW, раскипка и переименования в G2PWModel , а затем поместите их в GPT_SoVITS/text .

Список Тодо

(Дополнительный) метод работы из командной строки

Используйте командную строку, чтобы открыть WebUI для UVR5

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

Вот как сегментация звука набора данных выполняется с помощью командной строки

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

Так выполняется обработка набора данных ASR с использованием командной строки (только китайский)

 python tools/asr/funasr_asr.py -i <input> -o <output>

Обработка ASR выполняется с помощью FAST_WHISPER (Marking ASR, кроме китайца)

(Без баров прогресса, производительность графического процессора может привести к задержкам времени)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

Пользовательский путь сохранения списка включен

Кредиты

Особая благодарность следующим проектам и участникам:

Теоретическое исследование

AR-Vits
Звуковая звезда
вит
Передача
ContentVec
Хиф-Ган
Рыба-речь

Предварительные модели

Китайская речь предварительно
Китайский роберта-WWM-Ext-Large

Текстовый фронт для вывода

Paddlespeech zh_normalization
Лангсегмент
G2PW
Pypinyin-G2PW
Paddlespeech G2PW

Инструменты WebUI

Ultimatevocalremovergui
Аудио-Злитель
Субфикс
Ffmpeg
градио
быстрее
Funasr

Благодаря @naozumi520 за предоставление кантонского обучения и за руководство по знаниям, связанным с кантонскими.

Спасибо всем участникам за их усилия

Расширять

Дополнительная информация

Версия v2
Тип AI Исходный код
Время обновления 2025-08-19
размер 6.11MB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Последняя версия GPT для кино и телевидения

2023-10-30