تنزيل GPT SoVITS - تنزيل رمز المصدر GPT SoVITS

GPT SoVITS

كود الذكاء الاصطناعي

v2

تنزيل

GPT-Sovits-Webui

تحويل صوت قوي قليل و Webui النص إلى الكلام.

اللغة الإنجليزية |中文简体|日本語| 한국어 | Türkçe

سمات:

Zero-Shot TTS: إدخال عينة صوتية مدتها 5 ثوان وتجربة تحويل نص إلى كلام فوري.
TTS لقطعة قليلة: ضبط النموذج مع دقيقة واحدة فقط من بيانات التدريب لتحسين التشابه الصوتي والواقعية.
الدعم عبر اللغات: الاستدلال في اللغات يختلف عن مجموعة بيانات التدريب ، التي تدعم حاليًا اللغة الإنجليزية واليابانية والكورية والكانتونية والصينية.
أدوات WebUI: تتضمن الأدوات المتكاملة فصل المرافقة الصوتية ، وتجزئة مجموعة التدريب التلقائية ، و ASR الصينية ، ووضع العلامات النصية ، ومساعدة المبتدئين في إنشاء مجموعات بيانات التدريب ونماذج GPT/Sovits.

تحقق من الفيديو التجريبي الخاص بنا هنا!

المتحدثون غير المرئيين عرض قليلة الصقل:

FILE.SHOT.FINE.TUNING.DEMO.MP4

دليل المستخدم: 简体中文 | إنجليزي

تثبيت

للمستخدمين في الصين ، يمكنك النقر هنا لاستخدام AutoDL Cloud Docker لتجربة الوظائف الكاملة عبر الإنترنت.

بيئات تم اختبارها

Python 3.9 ، Pytorch 2.0.1 ، Cuda 11
Python 3.10.13 ، Pytorch 2.1.2 ، Cuda 12.3
Python 3.9 ، Pytorch 2.2.2 ، Macos 14.4.1 (Apple Silicon)
Python 3.9 ، Pytorch 2.2.2 ، أجهزة وحدة المعالجة المركزية

ملاحظة: Numba == 0.56.4 يتطلب PY <3.11

النوافذ

إذا كنت مستخدم Windows (تم اختباره مع Win> = 10) ، فيمكنك تنزيل الحزمة المتكاملة والنقر المزدوج على go-webui.bat لبدء gpt-sovits-webui.

يمكن للمستخدمين في الصين تنزيل الحزمة هنا.

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

ماكوس

ملاحظة: تؤدي النماذج المدربة مع وحدات معالجة الرسومات على أجهزة MAC إلى جودة أقل بكثير مقارنة بتلك المدربة على الأجهزة الأخرى ، لذلك نحن نستخدم وحدات المعالجة المركزية بدلاً من ذلك.

قم بتثبيت أدوات سطر أوامر Xcode عن طريق تشغيل xcode-select --install .
تثبيت FFMPEG عن طريق تشغيل brew install ffmpeg .
قم بتثبيت البرنامج عن طريق تشغيل الأوامر التالية:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

تثبيت يدويًا

تثبيت FFMPEG

مستخدمي كوندا

conda install ffmpeg

مستخدمي Ubuntu/Debian

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

مستخدمي Windows

قم بتنزيل ووضع ffmpeg.exe و ffprobe.exe في جذر GPT-Sovits.

تثبيت Visual Studio 2017 (TTS الكورية فقط)

مستخدمي MacOS

brew install ffmpeg

تثبيت التبعيات

pip install -r requirements.txt

باستخدام Docker

Docker-corm.yaml التكوين

فيما يتعلق بعلامات الصور: نظرًا للتحديثات السريعة في قاعدة الشفرة والعملية البطيئة لتصوير التغليف والاختبار ، يرجى التحقق من Docker Hub للحصول على أحدث الصور المعبأة حاليًا وتحديد وفقًا لمواقفك ، أو بدلاً من ذلك ، بناء محليًا باستخدام Dockerfile وفقًا لاحتياجاتك الخاصة.
متغيرات البيئة ：

IS_HALF: يتحكم في نصف الدقة/الدقة المزدوجة. هذا هو السبب عادة إذا لم يتم إنشاء المحتوى الموجود تحت الدلائل 4-cnhubert/5-WAV32K بشكل صحيح أثناء خطوة "استخراج SSL". التكيف مع صواب أو خطأ بناءً على الموقف الفعلي.

تكوين أحجام ， يتم تعيين دليل الجذر للتطبيق داخل الحاوية على /مساحة العمل. يسرد Docker-corms.yaml بعض الأمثلة العملية لتحميل/تنزيل المحتوى.
shm_size ： إن الذاكرة الافتراضية المتاحة لسطح Docker Desktop على Windows صغير جدًا ، مما قد يتسبب في عمليات غير طبيعية. اضبط وفقًا لموقفك.
ضمن قسم النشر ، يجب ضبط الإعدادات المتعلقة GPU بحذر وفقًا لنظامك والظروف الفعلية.

يعمل مع Docker Compens

 docker compose -f "docker-compose.yaml" up -d

تشغيل مع قيادة Docker

على النحو الوارد أعلاه ، قم بتعديل المعلمات المقابلة بناءً على الموقف الفعلي ، ثم قم بتشغيل الأمر التالي:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

نماذج ما قبل

يمكن للمستخدمين في الصين تنزيل كل هذه النماذج هنا.

قم بتنزيل النماذج المسبقة من نماذج GPT-SOVITS ووضعها في GPT_SoVITS/pretrained_models .
قم بتنزيل نماذج G2PW من G2PWMODEL_1.1.zip ، unsip وإعادة تسمية إلى G2PWModel ، ثم ضعها في GPT_SoVITS/text . (TTS الصينية فقط)
بالنسبة لـ UVR5 (غناء/فصل مرافقة وإزالة الصدى ، بالإضافة إلى ذلك) ، قم بتنزيل النماذج من أوزان UVR5 ووضعها في tools/uvr5/uvr5_weights .
بالنسبة إلى ASR الصيني (بالإضافة إلى ذلك) ، قم بتنزيل النماذج من نموذج DAMO ASR ونموذج DAMO VAD ونموذج DAMO Punc ووضعها في tools/asr/models .
بالنسبة إلى اللغة الإنجليزية أو اليابانية ASR (بالإضافة إلى ذلك) ، قم بتنزيل النماذج من Whisper Whisper Large V3 ووضعها في tools/asr/models . أيضا ، قد يكون للطرز الأخرى تأثير مماثل مع بصمة القرص الأصغر.

تنسيق مجموعة البيانات

تنسيق ملف التعليق التوضيحي TTS:

 vocal_path|speaker_name|language|text

قاموس اللغة:

'ZH': الصينية
"جا": اليابانية
'en': اللغة الإنجليزية
"كو": الكورية
"يوي": الكانتونية

مثال:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune والاستدلال

افتح webui

مستخدمي الحزمة المتكاملة

انقر نقرًا مزدوجًا فوق go-webui.bat أو استخدم go-webui.ps1 إذا كنت ترغب في التبديل إلى V1 ، ثم انقر نقرًا مزدوجًا على go-webui-v1.bat أو استخدم go-webui-v1.ps1

آحرون

python webui.py < language(optional) >

إذا كنت تريد التبديل إلى V1 ، إذن

python webui.py v1 < language(optional) >

أو نسخة التبديل Maunally في Webui

ضبط دقيق

تم دعم ملء المسار التلقائي الآن

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

فتح الاستدلال webui

مستخدمي الحزمة المتكاملة

انقر نقرًا مزدوجًا على go-webui-v2.bat أو استخدم go-webui-v2.ps1 ، ثم افتح webui الاستدلال في 1-GPT-SoVITS-TTS/1C-inference

آحرون

python GPT_SoVITS/inference_webui.py < language(optional) >

أو

python webui.py

ثم افتح Webui Interference في 1-GPT-SoVITS-TTS/1C-inference

ملاحظات الإصدار V2

ميزات جديدة:

دعم الكورية والكتلة الكانتونية
واجهة نص محسنة
امتد النموذج الذي تم تدريبه مسبقًا من ساعتين إلى 5 ساعات
تحسين جودة التوليف للصوت المرجعي منخفض الجودة
مزيد من التفاصيل

استخدم V2 من بيئة V1:

pip install -r requirements.txt لتحديث بعض الحزم
استنساخ أحدث الرموز من جيثب.
قم بتنزيل النماذج المسبقة لـ V2 من Huggingface ووضعها في GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
صيني V2 إضافي: G2PWMODEL_1.1.ZIP （تنزيل نماذج G2PW ، Unzip وإعادة تسمية إلى G2PWModel ، ثم وضعها في GPT_SoVITS/text .

قائمة TODO

(إضافي) طريقة للتشغيل من سطر الأوامر

استخدم سطر الأوامر لفتح webui لـ UVR5

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

هذه هي الطريقة التي يتم بها تجزئة الصوت لمجموعة البيانات باستخدام سطر الأوامر

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

هذه هي الطريقة التي تتم معالجة مجموعة البيانات ASR باستخدام سطر الأوامر (الصينية فقط)

 python tools/asr/funasr_asr.py -i <input> -o <output>

يتم إجراء معالجة ASR من خلال Faster_Whisper (علامات ASR باستثناء الصينية)

(لا توجد أشرطة تقدم ، قد يتسبب أداء GPU في تأخير الوقت)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

يتم تمكين مسار حفظ قائمة مخصصة

الاعتمادات

شكر خاص للمشاريع والمساهمين التالية:

البحث النظري

AR
Soundstorm
حالات
Transfertts
ContentVec
HIFI-GAN
مكبوت الأسماك

نماذج ما قبل

خطاب صيني ما قبل
الصينية-روبتيتا-ووي إم سي

نص نص للاستدلال

paddlespeech zh_normalization
langsegress
G2PW
Pypinyin-G2PW
paddlespeech G2PW

أدوات webui

UltimateVocalremovergui
صوتي
subfix
FFMPEG
غراد
أسرع
funasr

شاكرين لـ @naozumi520 لتوفير مجموعة التدريب الكانتونية والتوجيهات المتعلقة بالمعرفة المتعلقة بالكانتونية.

شكرا لجميع المساهمين على جهودهم

يوسع

معلومات إضافية

الإصدار v2
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-19
الحجم 6.11MB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
أحدث نسخة من GPT للسينما والتلفزيون

2023-10-30

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل