ดาวน์โหลด GPT SoVITS - ดาวน์โหลดซอร์สโค้ด GPT SoVITS

GPT SoVITS

โค้ดแหล่งที่มา AI

v2

ดาวน์โหลด

gpt-sovits-webui

การแปลงเสียงไม่กี่ครั้งที่ทรงพลังและ webui ข้อความเป็นคำพูด

ภาษาอังกฤษ |中文简体|日本語| 한국어 | Türkçe

คุณสมบัติ:

Zero-shot TTS: ป้อนตัวอย่างเสียงร้อง 5 วินาทีและสัมผัสกับการแปลงแบบข้อความเป็นคำพูดทันที
ไม่กี่ TTS-shot: ปรับโมเดลด้วยข้อมูลการฝึกอบรมเพียง 1 นาทีสำหรับความคล้ายคลึงกันของเสียงและความสมจริงที่ดีขึ้น
การสนับสนุนข้ามภาษา: การอนุมานในภาษาที่แตกต่างจากชุดข้อมูลการฝึกอบรมปัจจุบันสนับสนุนภาษาอังกฤษญี่ปุ่นเกาหลีกวางตุ้งและจีน
เครื่องมือ WebUI: เครื่องมือแบบรวมรวมถึงการแยกเสียงประกอบการแบ่งส่วนชุดฝึกอบรมอัตโนมัติ, ASR จีนและการติดฉลากข้อความ, การช่วยเหลือผู้เริ่มต้นในการสร้างชุดข้อมูลการฝึกอบรมและรุ่น GPT/SOVITS

ลองดูวิดีโอสาธิตของเราที่นี่!

ลำโพงที่มองไม่เห็นการสาธิตการปรับแต่งแบบไม่กี่:

ไม่กี่.shot.fine.tuning.demo.mp4

คู่มือผู้ใช้: 简体中文 | ภาษาอังกฤษ

การติดตั้ง

สำหรับผู้ใช้ในประเทศจีนคุณสามารถคลิกที่นี่เพื่อใช้ AutoDL Cloud Docker เพื่อสัมผัสกับฟังก์ชั่นการใช้งานเต็มรูปแบบออนไลน์

สภาพแวดล้อมที่ผ่านการทดสอบ

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, Cuda 12.3
Python 3.9, Pytorch 2.2.2, MacOS 14.4.1 (Apple Silicon)
Python 3.9, Pytorch 2.2.2, อุปกรณ์ CPU

หมายเหตุ: numba == 0.56.4 ต้องการ py <3.11

หน้าต่าง

หากคุณเป็นผู้ใช้ Windows (ทดสอบด้วย win> = 10) คุณสามารถดาวน์โหลดแพ็คเกจรวมและดับเบิลคลิกที่ go-webui.bat เพื่อเริ่ม GPT-sovits-webui

ผู้ใช้ในประเทศจีนสามารถดาวน์โหลดแพ็คเกจได้ที่นี่

ลินเวกซ์

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

แม็กอส

หมายเหตุ: โมเดลที่ได้รับการฝึกฝนด้วย GPUs บน Macs ส่งผลให้คุณภาพต่ำกว่าอย่างมีนัยสำคัญเมื่อเทียบกับที่ผ่านการฝึกอบรมบนอุปกรณ์อื่น ๆ ดังนั้นเราจึงใช้ CPU แทนชั่วคราว

ติดตั้งเครื่องมือบรรทัดคำสั่ง XCODE โดยเรียกใช้ xcode-select --install
ติดตั้ง FFMPEG โดยใช้ brew install ffmpeg
ติดตั้งโปรแกรมโดยเรียกใช้คำสั่งต่อไปนี้:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

ติดตั้งด้วยตนเอง

ติดตั้ง ffmpeg

ผู้ใช้ Conda

conda install ffmpeg

ผู้ใช้ Ubuntu/Debian

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

ผู้ใช้ Windows

ดาวน์โหลดและวาง ffmpeg.exe และ ffprobe.exe ในรูท gpt-sovits

ติดตั้ง Visual Studio 2017 (TTS เกาหลีเท่านั้น)

ผู้ใช้ MacOS

brew install ffmpeg

ติดตั้งการพึ่งพาอาศัยกัน

pip install -r requirements.txt

ใช้นักเทียบท่า

การกำหนดค่า Docker-compose.yaml

เกี่ยวกับแท็กรูปภาพ: เนื่องจากการอัปเดตอย่างรวดเร็วใน codebase และกระบวนการที่ช้าของการบรรจุภัณฑ์และการทดสอบรูปภาพโปรดตรวจสอบ Docker Hub สำหรับภาพล่าสุดที่บรรจุอยู่ในปัจจุบันและเลือกตามสถานการณ์ของคุณหรือสร้างในเครื่องโดยใช้ DockerFile ตามความต้องการของคุณเอง
ตัวแปรสภาพแวดล้อม：

IS_HALF: ควบคุมความแม่นยำครึ่งหนึ่ง/ความแม่นยำสองเท่า โดยทั่วไปแล้วจะเป็นสาเหตุหากเนื้อหาภายใต้ไดเรกทอรี 4-CNHUBERT/5-WAV32K ไม่ถูกสร้างขึ้นอย่างถูกต้องในระหว่างขั้นตอน "SSL Extracting" ปรับเป็นจริงหรือเท็จตามสถานการณ์จริงของคุณ

การกำหนดค่าปริมาณ， ไดเรกทอรีรูทของแอปพลิเคชันภายในคอนเทนเนอร์ถูกตั้งค่าเป็น /พื้นที่ทำงาน Docker-compose.yaml เริ่มต้นแสดงตัวอย่างบางอย่างสำหรับการอัปโหลด/ดาวน์โหลดเนื้อหา
SHM_SIZE： หน่วยความจำเริ่มต้นที่มีอยู่สำหรับเดสก์ท็อป Docker บน Windows นั้นเล็กเกินไปซึ่งอาจทำให้เกิดการทำงานที่ผิดปกติ ปรับตามสถานการณ์ของคุณเอง
ภายใต้ส่วนการปรับใช้ควรปรับการตั้งค่าที่เกี่ยวข้องกับ GPU อย่างระมัดระวังตามระบบและสถานการณ์จริง

รันกับนักเทียบท่า

 docker compose -f "docker-compose.yaml" up -d

รันด้วยคำสั่ง Docker

ดังกล่าวข้างต้นแก้ไขพารามิเตอร์ที่เกี่ยวข้องตามสถานการณ์จริงของคุณจากนั้นเรียกใช้คำสั่งต่อไปนี้:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

นางแบบที่ได้รับการฝึกฝน

ผู้ใช้ในประเทศจีนสามารถดาวน์โหลดทุกรุ่นเหล่านี้ได้ที่นี่

ดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมจากรุ่น GPT-Sovits และวางไว้ใน GPT_SoVITS/pretrained_models
ดาวน์โหลดรุ่น G2PW จาก G2PWMODEL_1.1.ZIP, UNZIP และเปลี่ยนชื่อเป็น G2PWModel จากนั้นวางไว้ใน GPT_SoVITS/text (TTS ภาษาจีนเท่านั้น)
สำหรับ UVR5 (การแยกเสียงร้อง/การแยกและการถอดเสียงก้องเพิ่มเติม), ดาวน์โหลดรุ่นจากน้ำหนัก UVR5 และวางไว้ใน tools/uvr5/uvr5_weights
สำหรับ ASR จีน (นอกจากนี้) ดาวน์โหลดรุ่นจาก Damo ASR Model, Damo Vad Model และ Damo Punc Model และวางไว้ใน tools/asr/models
สำหรับ ASR ภาษาอังกฤษหรือภาษาญี่ปุ่น (นอกจากนี้) ดาวน์โหลดรุ่นจาก Whisper Whisper Large V3 ที่เร็วขึ้นและวางไว้ใน tools/asr/models นอกจากนี้รุ่นอื่น ๆ อาจมีเอฟเฟกต์ที่คล้ายกันกับรอยเท้าดิสก์ขนาดเล็ก

รูปแบบชุดข้อมูล

รูปแบบไฟล์ tts annotation .list:

 vocal_path|speaker_name|language|text

พจนานุกรมภาษา:

'ZH': จีน
'Ja': ญี่ปุ่น
'en': ภาษาอังกฤษ
'Ko': เกาหลี
'Yue': กวางตุ้ง

ตัวอย่าง:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune และการอนุมาน

เปิด webui

ผู้ใช้แพ็คเกจรวม

ดับเบิลคลิก go-webui-v1.bat go-webui.bat หรือใช้ go-webui.ps1 หากคุณต้องการเปลี่ยนเป็น v1 จาก go-webui-v1.ps1 คลิกสองครั้ง

คนอื่น

python webui.py < language(optional) >

หากคุณต้องการเปลี่ยนเป็น v1 จากนั้น

python webui.py v1 < language(optional) >

หรือเวอร์ชันสวิตช์ maunally ใน webui

finetune

รองรับการเติมอัตโนมัติ Path Auto

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

เปิดการอนุมาน webui

ผู้ใช้แพ็คเกจรวม

ดับเบิลคลิกที่ go-webui-v2.bat หรือใช้ go-webui-v2.ps1 จากนั้นเปิดการอนุมาน webui ที่ 1-GPT-SoVITS-TTS/1C-inference

คนอื่น

python GPT_SoVITS/inference_webui.py < language(optional) >

หรือ

python webui.py

จากนั้นเปิดการอนุมาน webUI ที่ 1-GPT-SoVITS-TTS/1C-inference

โน้ตรีลีส V2

คุณสมบัติใหม่:

สนับสนุนภาษาเกาหลีและกวางตุ้ง
ส่วนหน้าข้อความที่ได้รับการปรับปรุง
รุ่นที่ผ่านการฝึกอบรมมาก่อนขยายจาก 2k ชั่วโมงเป็น 5k ชั่วโมง
ปรับปรุงคุณภาพการสังเคราะห์สำหรับเสียงอ้างอิงคุณภาพต่ำ
รายละเอียดเพิ่มเติม

ใช้ V2 จากสภาพแวดล้อม V1:

pip install -r requirements.txt เพื่ออัปเดตบางแพ็คเกจ
โคลนรหัสล่าสุดจาก GitHub
ดาวน์โหลดรุ่น V2 ที่ได้รับการฝึกฝนจาก HuggingFace และใส่ลงใน GPT_SoVITSpretrained_modelsgsv-v2final-pretrained
จีน V2 เพิ่มเติม: G2PWMODEL_1.1.ZIP （ดาวน์โหลดรุ่น G2PW, UNZIP และเปลี่ยนชื่อเป็น G2PWModel จากนั้นวางไว้ใน GPT_SoVITS/text

รายการสิ่งที่ต้องทำ

(เพิ่มเติม) วิธีการเรียกใช้จากบรรทัดคำสั่ง

ใช้บรรทัดคำสั่งเพื่อเปิด WebUI สำหรับ UVR5

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

นี่คือวิธีที่การแบ่งส่วนเสียงของชุดข้อมูลดำเนินการโดยใช้บรรทัดคำสั่ง

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

นี่คือวิธีการประมวลผลชุดข้อมูล ASR โดยใช้บรรทัดคำสั่ง (เฉพาะภาษาจีน)

 python tools/asr/funasr_asr.py -i <input> -o <output>

การประมวลผล ASR ดำเนินการผ่าน Faster_whisper (การทำเครื่องหมาย ASR ยกเว้นภาษาจีน)

(ไม่มีแถบความคืบหน้าประสิทธิภาพ GPU อาจทำให้เวลาล่าช้า)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

เปิดใช้งานเส้นทางบันทึกรายการที่กำหนดเอง

การให้เครดิต

ขอขอบคุณเป็นพิเศษสำหรับโครงการและผู้สนับสนุนต่อไปนี้:

การวิจัยเชิงทฤษฎี

เครื่องดื่ม
เสียง
เข้าด้วยกัน
การถ่ายโอน
contentVec
hifi-gan
การพูดปลา

นางแบบที่ได้รับการฝึกฝน

คำพูดภาษาจีน
Chinese-Roberta-WWM-Ext-Large

ส่วนหน้าข้อความสำหรับการอนุมาน

Paddlespeech zh_normalization
การจัดการ
G2PW
pypinyin-g2pw
Paddlespeech G2PW

เครื่องมือ webui

Ultimatevocalremovergui
เครื่องประกบกับเสียง
หน้าจอย่อย
FFMPEG
Gradeio
คร่ำครวญ
เครื่องราง

ขอบคุณ @Naozumi520 ที่จัดทำชุดฝึกอบรมกวางตุ้งและคำแนะนำเกี่ยวกับความรู้ที่เกี่ยวข้องกับกวางตุ้ง

ขอบคุณผู้มีส่วนร่วมทุกคนสำหรับความพยายามของพวกเขา

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v2
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-19
ขนาด 6.11MB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
ภาพยนตร์และโทรทัศน์ GPT เวอร์ชันล่าสุด

2023-10-30

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด