اللغة الإنجليزية |中文简体|日本語| 한국어 | Türkçe
Zero-Shot TTS: إدخال عينة صوتية مدتها 5 ثوان وتجربة تحويل نص إلى كلام فوري.
TTS لقطعة قليلة: ضبط النموذج مع دقيقة واحدة فقط من بيانات التدريب لتحسين التشابه الصوتي والواقعية.
الدعم عبر اللغات: الاستدلال في اللغات يختلف عن مجموعة بيانات التدريب ، التي تدعم حاليًا اللغة الإنجليزية واليابانية والكورية والكانتونية والصينية.
أدوات WebUI: تتضمن الأدوات المتكاملة فصل المرافقة الصوتية ، وتجزئة مجموعة التدريب التلقائية ، و ASR الصينية ، ووضع العلامات النصية ، ومساعدة المبتدئين في إنشاء مجموعات بيانات التدريب ونماذج GPT/Sovits.
تحقق من الفيديو التجريبي الخاص بنا هنا!
المتحدثون غير المرئيين عرض قليلة الصقل:
دليل المستخدم: 简体中文 | إنجليزي
للمستخدمين في الصين ، يمكنك النقر هنا لاستخدام AutoDL Cloud Docker لتجربة الوظائف الكاملة عبر الإنترنت.
ملاحظة: Numba == 0.56.4 يتطلب PY <3.11
إذا كنت مستخدم Windows (تم اختباره مع Win> = 10) ، فيمكنك تنزيل الحزمة المتكاملة والنقر المزدوج على go-webui.bat لبدء gpt-sovits-webui.
يمكن للمستخدمين في الصين تنزيل الحزمة هنا.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shملاحظة: تؤدي النماذج المدربة مع وحدات معالجة الرسومات على أجهزة MAC إلى جودة أقل بكثير مقارنة بتلك المدربة على الأجهزة الأخرى ، لذلك نحن نستخدم وحدات المعالجة المركزية بدلاً من ذلك.
xcode-select --install .brew install ffmpeg .conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' قم بتنزيل ووضع ffmpeg.exe و ffprobe.exe في جذر GPT-Sovits.
تثبيت Visual Studio 2017 (TTS الكورية فقط)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
على النحو الوارد أعلاه ، قم بتعديل المعلمات المقابلة بناءً على الموقف الفعلي ، ثم قم بتشغيل الأمر التالي:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
يمكن للمستخدمين في الصين تنزيل كل هذه النماذج هنا.
قم بتنزيل النماذج المسبقة من نماذج GPT-SOVITS ووضعها في GPT_SoVITS/pretrained_models .
قم بتنزيل نماذج G2PW من G2PWMODEL_1.1.zip ، unsip وإعادة تسمية إلى G2PWModel ، ثم ضعها في GPT_SoVITS/text . (TTS الصينية فقط)
بالنسبة لـ UVR5 (غناء/فصل مرافقة وإزالة الصدى ، بالإضافة إلى ذلك) ، قم بتنزيل النماذج من أوزان UVR5 ووضعها في tools/uvr5/uvr5_weights .
بالنسبة إلى ASR الصيني (بالإضافة إلى ذلك) ، قم بتنزيل النماذج من نموذج DAMO ASR ونموذج DAMO VAD ونموذج DAMO Punc ووضعها في tools/asr/models .
بالنسبة إلى اللغة الإنجليزية أو اليابانية ASR (بالإضافة إلى ذلك) ، قم بتنزيل النماذج من Whisper Whisper Large V3 ووضعها في tools/asr/models . أيضا ، قد يكون للطرز الأخرى تأثير مماثل مع بصمة القرص الأصغر.
تنسيق ملف التعليق التوضيحي TTS:
vocal_path|speaker_name|language|text
قاموس اللغة:
مثال:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
انقر نقرًا مزدوجًا فوق go-webui.bat أو استخدم go-webui.ps1 إذا كنت ترغب في التبديل إلى V1 ، ثم انقر نقرًا مزدوجًا على go-webui-v1.bat أو استخدم go-webui-v1.ps1
python webui.py < language(optional) >إذا كنت تريد التبديل إلى V1 ، إذن
python webui.py v1 < language(optional) >أو نسخة التبديل Maunally في Webui
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
انقر نقرًا مزدوجًا على go-webui-v2.bat أو استخدم go-webui-v2.ps1 ، ثم افتح webui الاستدلال في 1-GPT-SoVITS-TTS/1C-inference
python GPT_SoVITS/inference_webui.py < language(optional) >أو
python webui.py ثم افتح Webui Interference في 1-GPT-SoVITS-TTS/1C-inference
ميزات جديدة:
دعم الكورية والكتلة الكانتونية
واجهة نص محسنة
امتد النموذج الذي تم تدريبه مسبقًا من ساعتين إلى 5 ساعات
تحسين جودة التوليف للصوت المرجعي منخفض الجودة
مزيد من التفاصيل
استخدم V2 من بيئة V1:
pip install -r requirements.txt لتحديث بعض الحزم
استنساخ أحدث الرموز من جيثب.
قم بتنزيل النماذج المسبقة لـ V2 من Huggingface ووضعها في GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
صيني V2 إضافي: G2PWMODEL_1.1.ZIP (تنزيل نماذج G2PW ، Unzip وإعادة تسمية إلى G2PWModel ، ثم وضعها في GPT_SoVITS/text .
أولوية عالية:
سمات:
استخدم سطر الأوامر لفتح webui لـ UVR5
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
هذه هي الطريقة التي يتم بها تجزئة الصوت لمجموعة البيانات باستخدام سطر الأوامر
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
هذه هي الطريقة التي تتم معالجة مجموعة البيانات ASR باستخدام سطر الأوامر (الصينية فقط)
python tools/asr/funasr_asr.py -i <input> -o <output>
يتم إجراء معالجة ASR من خلال Faster_Whisper (علامات ASR باستثناء الصينية)
(لا توجد أشرطة تقدم ، قد يتسبب أداء GPU في تأخير الوقت)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
يتم تمكين مسار حفظ قائمة مخصصة
شكر خاص للمشاريع والمساهمين التالية:
شاكرين لـ @naozumi520 لتوفير مجموعة التدريب الكانتونية والتوجيهات المتعلقة بالمعرفة المتعلقة بالكانتونية.