تنزيل PolyLangVITS - تنزيل رمز المصدر PolyLangVITS

PolyLangVITS

كود الذكاء الاصطناعي

Pretrained_Models

تنزيل

polylangvits

نظام تخليق الكلام متعدد اللغات باستخدام حالات

جدول المحتويات

المتطلبات الأساسية
تثبيت
تحضير _datasets
الاستخدام
الاستدلال
مراجع

المتطلبات الأساسية

نظام Windows/Linux مع ذاكرة الوصول العشوائي على الأقل 16GB .
وحدة معالجة الرسومات مع ما لا يقل عن 12GB من VRAM.
بيثون == 3.8
أناكوندا مثبتة.
Pytorch مثبتة.
CUDA 11.x مثبت.
Zlib DLL مثبت.

أمر تثبيت Pytorch:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 تثبيت: https://developer.nvidia.com/cuda-11-7-0-download-archive

Zlib DLL تثبيت: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

تثبيت pyopenjtalk يدويًا: pip install -U pyopenjtalk --no-build-isolation

إذا لم يتم تثبيت هذا الأمر ، فيرجى تثبيت المكتبة التالية قبل المتابعة: cmake Cython

تثبيت

إنشاء بيئة أناكوندا:

conda create -n polylangvits python=3.8

تنشيط البيئة:

conda activate polylangvits

استنساخ هذا المستودع إلى جهازك المحلي:

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

انتقل إلى الدليل المستنسخ:

 cd PolyLangVITS

تثبيت التبعيات اللازمة:

pip install -r requirements.txt

تحضير _datasets

ضع ملفات الصوت على النحو التالي.

.MP3 أو .WAV Files على ما يرام.

يجب أن تكتب "[رمز اللغة]" على ظهر مجلد السماعة.

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

هذا مجرد مثال ، ولا بأس في إضافة المزيد من مكبرات الصوت.

الاستخدام

لبدء هذه الأداة ، استخدم الأمر التالي ، واستبدال {language} و {model_name} و {sample_rate} مع قيم كل منهما:

python main.py {language} {model_name} {sample_rate}

بالنسبة لأولئك الذين لديهم مواصفات منخفضة (VRAM <12 جيجابايت) ، يرجى استخدام هذا الرمز:

python main_low.py {language} {model_name} {sample_rate}

إذا اكتمل تكوين البيانات وتريد استئناف التدريب ، أدخل هذا الرمز:

python main_resume.py {model_name}

الاستدلال

بعد تدريب النموذج ، يمكنك إنشاء تنبؤات باستخدام الأمر التالي ، واستبدال {model_name} و {model_step} مع قيم كل منهما:

python inference.py {model_name} {model_step}

للحصول على نص لاستنتاج الكلام ، استخدم ما يلي:

python inference-stt.py {model_name} {model_step}

أيضًا ، يمكنك تمرير النص يدويًا دون تحرير الرمز بواسطة:

python inference-stt.py {model_name} {model_step} {text}

مراجع

لمزيد من المعلومات ، يرجى الرجوع إلى المستودعات التالية:

Jaywalnut310/vits
cjangcjengh/vits
Kyubyong/G2PK
Tenebo/G2PK2
Henrymass/Audioslicer

يوسع

معلومات إضافية

الإصدار Pretrained_Models
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-14
الحجم 31.98MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل