GPT SoVITS 다운로드 -GPT GPT SoVITS 소스 코드 다운로드

GPT SoVITS

AI 소스 코드

v2

다운로드

gpt-sovits-webui

강력한 소수의 음성 변환 및 텍스트 음성 변환 Webui.

영어 |中文简体|中文简体| 한국어 | Türkçe

특징:

제로 샷 TTS : 5 초 보컬 샘플을 입력하고 즉시 텍스트 음성 연사 변환을 경험하십시오.
소수의 TTS : 개선 된 음성 유사성과 현실주의를 위해 단 1 분의 교육 데이터로 모델을 미세 조정하십시오.
교차 지원 : 현재 영어, 일본어, 한국, 광동 및 중국어를 지원하는 교육 데이터 세트와 다른 언어의 추론.
Webui 도구 : 통합 도구에는 음성 반주 분리, 자동 훈련 세트 세분화, 중국 ASR 및 텍스트 라벨링이 포함되어 초보자가 교육 데이터 세트 및 GPT/Sovits 모델을 만드는 데 도움이됩니다.

여기에서 데모 비디오를 확인하십시오!

보이지 않는 스피커 몇 가지 미세 조정 데모 :

몇 가지 .shot.fine.tuning.demo.mp4

사용자 안내서 :. | 영어

설치

중국 사용자의 경우 여기를 클릭하여 AutoDl Cloud Docker를 사용하여 온라인으로 전체 기능을 경험할 수 있습니다.

테스트 된 환경

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, Cuda 12.3
Python 3.9, Pytorch 2.2.2, MacOS 14.4.1 (Apple Silicon)
Python 3.9, Pytorch 2.2.2, CPU 장치

참고 : NUMBA == 0.56.4는 PY <3.11이 필요합니다

창

Windows 사용자 인 경우 (Win> = 10으로 테스트) 통합 패키지를 다운로드하고 Go-Webui.bat 에서 두 번 클릭하여 GPT-Sovits-Webui를 시작할 수 있습니다.

중국 사용자는 여기에서 패키지를 다운로드 할 수 있습니다.

리눅스

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

마코스

참고 : MAC에서 GPU로 훈련 된 모델은 다른 장치에서 훈련 된 모델에 비해 품질이 상당히 낮아서 CPU를 대신 일시적으로 사용하고 있습니다.

xcode-select --install 실행하여 Xcode 명령 줄 도구를 설치하십시오.
FFMPEG를 설치하여 brew install ffmpeg .
다음 명령을 실행하여 프로그램을 설치하십시오.

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

수동으로 설치하십시오

FFMPEG를 설치하십시오

콘다 사용자

conda install ffmpeg

우분투/데비안 사용자

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Windows 사용자

GPT-Sovits 루트에 ffmpeg.exe 및 ffprobe.exe를 다운로드하여 배치하십시오.

Visual Studio 2017 설치 (한국 TTS 만)

MACOS 사용자

brew install ffmpeg

의존성을 설치하십시오

pip install -r requirements.txt

Docker 사용

docker-compose.yaml 구성

이미지 태그와 관련하여 : 코드베이스의 빠른 업데이트와 이미지 포장 및 테스트 과정으로 인해 현재 포장 된 최신 이미지는 Docker Hub를 확인하고 상황에 따라 선택하거나 자신의 요구에 따라 Dockerfile을 사용하여 로컬로 구축하십시오.
환경 변수 ：

IS_HALF : Half-Precision/Double-Precision을 제어합니다. "SSL 추출"단계 중에 디렉토리 4-CNHUBERT/5-WAV32K의 내용이 올바르게 생성되지 않는 경우 일반적으로 원인입니다. 실제 상황에 따라 참 또는 거짓으로 조정하십시오.

컨테이너 내부의 응용 프로그램의 루트 디렉토리는 /작업 공간으로 설정됩니다. Default Docker-Compose.yaml에는 콘텐츠 업로드/다운로드를위한 몇 가지 실제 예제가 나와 있습니다.
SHM_SIZE ： Windows의 Docker Desktop의 기본 메모리가 너무 작아서 비정상적인 작업을 유발할 수 있습니다. 자신의 상황에 따라 조정하십시오.
배포 섹션에서 GPU 관련 설정은 시스템 및 실제 상황에 따라 신중하게 조정되어야합니다.

Docker Compose와 함께 실행

 docker compose -f "docker-compose.yaml" up -d

Docker 명령으로 실행됩니다

위와 같이 실제 상황에 따라 해당 매개 변수를 수정 한 다음 다음 명령을 실행하십시오.

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

사전 예방 모델

중국 사용자는 이러한 모든 모델을 여기에서 다운로드 할 수 있습니다.

gpt-sovits 모델에서 사전 치료 된 모델을 다운로드하여 GPT_SoVITS/pretrained_models 에 배치하십시오.
g2pwmodel_1.1.zip에서 g2pw 모델을 다운로드하고 zip 및 G2PWModel 로 이름을 바꾼 다음 GPT_SoVITS/text 에 배치하십시오 (중국 tts 만).
UVR5 (보컬/반주 분리 및 잔향 제거, 추가로)의 경우 UVR5 가중치에서 모델을 다운로드하여 tools/uvr5/uvr5_weights 에 배치하십시오.
중국 ASR (추가)의 경우 Damo ASR 모델, Damo Vad Model 및 Damo Punc 모델의 모델을 다운로드하여 tools/asr/models 에 배치하십시오.
영어 또는 일본어 ASR (추가로)의 경우 더 빠른 속삭임에서 모델을 다운로드하여 tools/asr/models 에 배치하십시오. 또한 다른 모델은 더 작은 디스크 발자국과 비슷한 효과를 가질 수 있습니다.

데이터 세트 형식

tts 주석. 목록 파일 형식 :

 vocal_path|speaker_name|language|text

언어 사전 :

'Zh': 중국어
'자': 일본어
'en': 영어
'코': 한국어
'Yue': 광동어

예:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

FINETUNE 및 추론

Open Webui

통합 패키지 사용자

go-webui.bat 두 번 클릭하거나 go-webui.ps1 사용한 다음 v1로 전환하려면 go-webui-v1.bat 두 번 클릭하거나 go-webui-v1.ps1 사용하십시오.

기타

python webui.py < language(optional) >

그렇다면 V1로 전환하려면

python webui.py v1 < language(optional) >

또는 webui의 Maunally 스위치 버전

FINETUNE

경로 자동 고정이 이제 지원됩니다

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

열린 추론 webui

통합 패키지 사용자

go-webui-v2.bat 두 번 클릭하거나 go-webui-v2.ps1 사용한 다음 1-GPT-SoVITS-TTS/1C-inference 에서 추론 WebUI를 엽니 다.

기타

python GPT_SoVITS/inference_webui.py < language(optional) >

또는

python webui.py

그런 다음 추론 webui를 1-GPT-SoVITS-TTS/1C-inference 에서 엽니 다

v2 릴리스 노트

새로운 기능 :

한국과 광동어를 지원하십시오
최적화 된 텍스트 프론트 엔드
미리 훈련 된 모델은 2k 시간에서 5k 시간으로 연장되었습니다
저품질 참조 오디오를위한 개선 된 합성 품질
자세한 내용

V1 환경에서 V2 사용 :

pip install -r requirements.txt 일부 패키지를 업데이트하려면
Github에서 최신 코드를 복제하십시오.
GPT_SoVITSpretrained_modelsgsv-v2final-pretrained
중국 V2 추가 : g2pwmodel_1.1.zip (g2pw 모델, zip 및 G2PWModel 의 이름을 다운로드 한 다음 GPT_SoVITS/text 에 배치하십시오.

TODO 목록

(추가) 명령 줄에서 실행되는 메소드

명령 줄을 사용하여 UVR5 용 webui를 엽니 다.

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

이것이 명령 줄을 사용하여 데이터 세트의 오디오 세분화를 수행하는 방법입니다.

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

이것이 명령 줄 (중국어 만)을 사용하여 데이터 세트 ASR 처리를 수행하는 방법입니다.

 python tools/asr/funasr_asr.py -i <input> -o <output>

ASR 처리는 Faster_Whisper (중국어를 제외한 ASR 표시)를 통해 수행됩니다.

(진행률 표시 줄 없음, GPU 성능은 시간 지연을 유발할 수 있습니다)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

사용자 정의 목록 저장 경로가 활성화되어 있습니다

크레딧

다음 프로젝트 및 기고자 덕분에 특별한 감사를드립니다.

이론적 연구

ar-vit
사운드 스터
vits
송환
ContentVec
Hifi-gan
어류 연설

사전 예방 모델

중국어 연설 프리 트레인
중국-로버타 -WWM-EXT-LARGE

추론을위한 텍스트 프론트 엔드

Paddlespeech zh_normalization
langsegment
G2PW
Pypinyin-G2PW
패들링 스피치 G2PW

Webui 도구

ultimatevocalremovergui
오디오 슬라이서
서브 픽스
ffmpeg
Gradio
더 빠른-whisper
funasr

광동어 훈련 세트를 제공하고 광동어 관련 지식에 대한 지침에 감사드립니다.

그들의 노력에 대한 모든 기고자들에게 감사합니다

확장하다

추가 정보

버전 v2
유형 AI 소스 코드
업데이트 시간 2025-08-19
크기 6.11MB
출처 Github