ภาษาอังกฤษ |中文简体|日本語| 한국어 | Türkçe
Zero-shot TTS: ป้อนตัวอย่างเสียงร้อง 5 วินาทีและสัมผัสกับการแปลงแบบข้อความเป็นคำพูดทันที
ไม่กี่ TTS-shot: ปรับโมเดลด้วยข้อมูลการฝึกอบรมเพียง 1 นาทีสำหรับความคล้ายคลึงกันของเสียงและความสมจริงที่ดีขึ้น
การสนับสนุนข้ามภาษา: การอนุมานในภาษาที่แตกต่างจากชุดข้อมูลการฝึกอบรมปัจจุบันสนับสนุนภาษาอังกฤษญี่ปุ่นเกาหลีกวางตุ้งและจีน
เครื่องมือ WebUI: เครื่องมือแบบรวมรวมถึงการแยกเสียงประกอบการแบ่งส่วนชุดฝึกอบรมอัตโนมัติ, ASR จีนและการติดฉลากข้อความ, การช่วยเหลือผู้เริ่มต้นในการสร้างชุดข้อมูลการฝึกอบรมและรุ่น GPT/SOVITS
ลองดูวิดีโอสาธิตของเราที่นี่!
ลำโพงที่มองไม่เห็นการสาธิตการปรับแต่งแบบไม่กี่:
คู่มือผู้ใช้: 简体中文 | ภาษาอังกฤษ
สำหรับผู้ใช้ในประเทศจีนคุณสามารถคลิกที่นี่เพื่อใช้ AutoDL Cloud Docker เพื่อสัมผัสกับฟังก์ชั่นการใช้งานเต็มรูปแบบออนไลน์
หมายเหตุ: numba == 0.56.4 ต้องการ py <3.11
หากคุณเป็นผู้ใช้ Windows (ทดสอบด้วย win> = 10) คุณสามารถดาวน์โหลดแพ็คเกจรวมและดับเบิลคลิกที่ go-webui.bat เพื่อเริ่ม GPT-sovits-webui
ผู้ใช้ในประเทศจีนสามารถดาวน์โหลดแพ็คเกจได้ที่นี่
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shหมายเหตุ: โมเดลที่ได้รับการฝึกฝนด้วย GPUs บน Macs ส่งผลให้คุณภาพต่ำกว่าอย่างมีนัยสำคัญเมื่อเทียบกับที่ผ่านการฝึกอบรมบนอุปกรณ์อื่น ๆ ดังนั้นเราจึงใช้ CPU แทนชั่วคราว
xcode-select --installbrew install ffmpegconda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' ดาวน์โหลดและวาง ffmpeg.exe และ ffprobe.exe ในรูท gpt-sovits
ติดตั้ง Visual Studio 2017 (TTS เกาหลีเท่านั้น)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
ดังกล่าวข้างต้นแก้ไขพารามิเตอร์ที่เกี่ยวข้องตามสถานการณ์จริงของคุณจากนั้นเรียกใช้คำสั่งต่อไปนี้:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
ผู้ใช้ในประเทศจีนสามารถดาวน์โหลดทุกรุ่นเหล่านี้ได้ที่นี่
ดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมจากรุ่น GPT-Sovits และวางไว้ใน GPT_SoVITS/pretrained_models
ดาวน์โหลดรุ่น G2PW จาก G2PWMODEL_1.1.ZIP, UNZIP และเปลี่ยนชื่อเป็น G2PWModel จากนั้นวางไว้ใน GPT_SoVITS/text (TTS ภาษาจีนเท่านั้น)
สำหรับ UVR5 (การแยกเสียงร้อง/การแยกและการถอดเสียงก้องเพิ่มเติม), ดาวน์โหลดรุ่นจากน้ำหนัก UVR5 และวางไว้ใน tools/uvr5/uvr5_weights
สำหรับ ASR จีน (นอกจากนี้) ดาวน์โหลดรุ่นจาก Damo ASR Model, Damo Vad Model และ Damo Punc Model และวางไว้ใน tools/asr/models
สำหรับ ASR ภาษาอังกฤษหรือภาษาญี่ปุ่น (นอกจากนี้) ดาวน์โหลดรุ่นจาก Whisper Whisper Large V3 ที่เร็วขึ้นและวางไว้ใน tools/asr/models นอกจากนี้รุ่นอื่น ๆ อาจมีเอฟเฟกต์ที่คล้ายกันกับรอยเท้าดิสก์ขนาดเล็ก
รูปแบบไฟล์ tts annotation .list:
vocal_path|speaker_name|language|text
พจนานุกรมภาษา:
ตัวอย่าง:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
ดับเบิลคลิก go-webui-v1.bat go-webui.bat หรือใช้ go-webui.ps1 หากคุณต้องการเปลี่ยนเป็น v1 จาก go-webui-v1.ps1 คลิกสองครั้ง
python webui.py < language(optional) >หากคุณต้องการเปลี่ยนเป็น v1 จากนั้น
python webui.py v1 < language(optional) >หรือเวอร์ชันสวิตช์ maunally ใน webui
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
ดับเบิลคลิกที่ go-webui-v2.bat หรือใช้ go-webui-v2.ps1 จากนั้นเปิดการอนุมาน webui ที่ 1-GPT-SoVITS-TTS/1C-inference
python GPT_SoVITS/inference_webui.py < language(optional) >หรือ
python webui.py จากนั้นเปิดการอนุมาน webUI ที่ 1-GPT-SoVITS-TTS/1C-inference
คุณสมบัติใหม่:
สนับสนุนภาษาเกาหลีและกวางตุ้ง
ส่วนหน้าข้อความที่ได้รับการปรับปรุง
รุ่นที่ผ่านการฝึกอบรมมาก่อนขยายจาก 2k ชั่วโมงเป็น 5k ชั่วโมง
ปรับปรุงคุณภาพการสังเคราะห์สำหรับเสียงอ้างอิงคุณภาพต่ำ
รายละเอียดเพิ่มเติม
ใช้ V2 จากสภาพแวดล้อม V1:
pip install -r requirements.txt เพื่ออัปเดตบางแพ็คเกจ
โคลนรหัสล่าสุดจาก GitHub
ดาวน์โหลดรุ่น V2 ที่ได้รับการฝึกฝนจาก HuggingFace และใส่ลงใน GPT_SoVITSpretrained_modelsgsv-v2final-pretrained
จีน V2 เพิ่มเติม: G2PWMODEL_1.1.ZIP (ดาวน์โหลดรุ่น G2PW, UNZIP และเปลี่ยนชื่อเป็น G2PWModel จากนั้นวางไว้ใน GPT_SoVITS/text
ลำดับความสำคัญสูง:
คุณสมบัติ:
ใช้บรรทัดคำสั่งเพื่อเปิด WebUI สำหรับ UVR5
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
นี่คือวิธีที่การแบ่งส่วนเสียงของชุดข้อมูลดำเนินการโดยใช้บรรทัดคำสั่ง
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
นี่คือวิธีการประมวลผลชุดข้อมูล ASR โดยใช้บรรทัดคำสั่ง (เฉพาะภาษาจีน)
python tools/asr/funasr_asr.py -i <input> -o <output>
การประมวลผล ASR ดำเนินการผ่าน Faster_whisper (การทำเครื่องหมาย ASR ยกเว้นภาษาจีน)
(ไม่มีแถบความคืบหน้าประสิทธิภาพ GPU อาจทำให้เวลาล่าช้า)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
เปิดใช้งานเส้นทางบันทึกรายการที่กำหนดเอง
ขอขอบคุณเป็นพิเศษสำหรับโครงการและผู้สนับสนุนต่อไปนี้:
ขอบคุณ @Naozumi520 ที่จัดทำชุดฝึกอบรมกวางตุ้งและคำแนะนำเกี่ยวกับความรู้ที่เกี่ยวข้องกับกวางตุ้ง