تنزيل StyleTTS2 - تنزيل رمز المصدر StyleTTS2

StyleTTS2

كود الذكاء الاصطناعي

1.0.0

تنزيل

Styletts 2: نحو النص على مستوى الإنسان من خلال نشر النمط والتدريب العدواني مع نماذج لغة الكلام الكبيرة

Yinghao Aaron Li ، Cong Han ، Vinay S. Raghavan ، Gavin Mischler ، Nima Mesgarani

في هذه الورقة ، نقدم نموذج Styletts 2 ، وهو نموذج من النص إلى كلام (TTS) الذي يستفيد من انتشار النمط والتدريب اللامع مع نماذج لغة الكلام الكبيرة (SLMs) لتحقيق توليف TTS على مستوى الإنسان. تختلف Stylets 2 عن سابقتها من خلال نمذجة أنماطها كمتغير عشوائي كامن من خلال نماذج الانتشار لتوليد النمط الأنسب للنص دون الحاجة إلى خطاب مرجعي ، وتحقيق نشر كامن فعال مع الاستفادة من توليف الكلام المتنوع الذي توفره نماذج الانتشار. علاوة على ذلك ، فإننا نستخدم SLMs كبيرة المدربين مسبقًا ، مثل WAVLM ، كمتميزين من خلال نمذجة مدة الاختلاف الجديدة لدينا للتدريب الشامل ، مما يؤدي إلى تحسين الطبيعية في الكلام. يتجاوز Styletts 2 التسجيلات البشرية على مجموعة بيانات LJSPEEDE الواحدة وتطابقها على مجموعة بيانات VCTK المتعددة كما يحكم عليها المتحدثون باللغة الإنجليزية. علاوة على ذلك ، عندما تدرب على مجموعة بيانات Libritts ، يتفوق نموذجنا على النماذج السابقة المتاحة للجمهور لتكييف مكبر الصوت صفري. يحقق هذا العمل أول تخليق TTS على مستوى الإنسان على كل من مجموعات البيانات المفردة والمتعددة ، حيث يعرض إمكانات نشر الأسلوب والتدريب العدائي مع SLMs كبيرة.

ورقة: https://arxiv.org/abs/2306.07691

عينات الصوت: https://styletts2.github.io/

العرض التوضيحي عبر الإنترنت: Hugging Face (شكرًا @FakeryBakery على العرض التوضيحي الرائع عبر الإنترنت)

تودو

الكود التجريبي للتدريب والاستدلال لنماذج المتحدث الفردي (LJSPEEDE)
رمز التدريب للاختبار للنماذج متعددة المتحدثين (VCTK و Libritts)
إنهاء الرمز التجريبي لنموذج multispeaker وتحميل النماذج التي تم تدريبها مسبقًا
أضف نصًا نصيًا للسماعات الجديدة مع نماذج متعددة الأدوات المدربة مسبقًا
إصلاح DDP (Accelerator) لـ train_second.py (لقد جربت كل ما بوسعي لإصلاح هذا ولكن لم يكن له أي نجاح ، لذلك إذا كنت على استعداد للمساعدة ، فيرجى الاطلاع على #7)

المتطلبات المسبقة

بيثون> = 3.7
استنساخ هذا المستودع:

git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

تثبيت متطلبات Python:

pip install -r requirements.txt

على Windows إضافة:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -U

قم أيضًا بتثبيت Phonemizer و Espeak إذا كنت ترغب في تشغيل العرض التوضيحي:

pip install phonemizer
sudo apt-get install espeak-ng

قم بتنزيل واستخراج مجموعة بيانات LJSPEEDE ، وفك الضغط على مجلد البيانات وقم بتضمين البيانات إلى 24 كيلو هرتز. يتم تدريب محاذاة النص ومستخرج الملعب مسبقًا على بيانات 24 كيلو هرتز ، ولكن يمكنك بسهولة تغيير المعالجة المسبقة وإعادة تدريبها باستخدام المعالجة المسبقة الخاصة بك. بالنسبة إلى Libritts ، ستحتاج إلى الجمع بين Clean-360 مع قطار Clean-100 وإعادة تسمية المجلد Clean-460 (انظر Val_List_Libritts.txt كمثال).

تمرين

التدريب على المرحلة الأولى:

accelerate launch train_first.py --config_path ./Configs/config.yml

التدريب في المرحلة الثانية (إصدار DDP لا يعمل ، لذلك يستخدم الإصدار الحالي DP ، انظر مرة أخرى #7 إذا كنت ترغب في المساعدة) :

python train_second.py --config_path ./Configs/config.yml

يمكنك الركض على حد سواء على التوالي وسيقوم بتدريب المرحلتين الأولى والثانية. سيتم حفظ النموذج في التنسيق "EPOCH_1ST_ ٪ 05D.PTH" و "EPOCH_2ND_ ٪ 05D.PTH". سيتم حفظ نقاط التفتيش وسجلات Tensorboard في log_dir .

يجب أن يكون تنسيق قائمة البيانات filename.wav|transcription|speaker ، انظر Val_List.txt كمثال. هناك حاجة إلى ملصقات السماعات لنماذج متعددة المتحدثين لأننا بحاجة إلى أخذ عينات من الصوت المرجعي للتدريب على نموذج نشر النمط.

تكوينات مهمة

في config.yml ، هناك بعض التكوينات المهمة لرعاية:

OOD_data : مسار النصوص خارج التوزيع لتدريب SLM العدائي. يجب أن يكون التنسيق text|anything .
min_length : الحد الأدنى لطول نصوص OOD للتدريب. هذا هو التأكد من أن الكلام المصنوع له الحد الأدنى من الطول.
max_len : الحد الأقصى لطول الصوت للتدريب. الوحدة هي الإطار. نظرًا لأن حجم القفزة الافتراضي هو 300 ، فإن إطارًا واحدًا يبلغ حوالي 300 / 24000 (0.0125) في المرتبة الثانية. خفض هذا إذا واجهت قضية خارج الذاكرة.
multispeaker : قم بالتعيين على True إذا كنت ترغب في تدريب نموذج متعدد الأطوار. هذا مطلوب لأن بنية Denoiser مختلفة عن النماذج الفردية والمتعددة.
batch_percentage : هذا هو التأكد من خلال التدريب العدائي SLM لا توجد قضايا خارج الذاكرة (OOM). إذا واجهت مشكلة OOM ، فيرجى تعيين رقم أقل لهذا الغرض.

الوحدات النمطية التي تم تدريبها مسبقًا

في مجلد Utils ، هناك ثلاثة نماذج مدربة مسبقًا:

مجلد ASR : أنه يحتوي على محاذاة النص المدربة مسبقًا ، والذي تم تدريبه مسبقًا على اللغة الإنجليزية (Libritts) ، واليابانية (JVS) ، وجسم الصينية (Aishell). إنه يعمل بشكل جيد بالنسبة لمعظم اللغات الأخرى دون ضبط دقيق ، ولكن يمكنك دائمًا تدريب محاذاة النص الخاص بك مع الكود هنا: YL4579/AuxiliaryAsr.
مجلد JDC : يحتوي على مستخرج الملعب الذي تم تدريبه مسبقًا ، والذي تم تدريبه مسبقًا على مجموعة اللغة الإنجليزية (Libritts) فقط. ومع ذلك ، فإنه يعمل بشكل جيد لللغات الأخرى أيضًا لأن F0 مستقل عن اللغة. إذا كنت ترغب في التدريب على Singing Corpus ، فمن المستحسن تدريب مستخرج الملعب الجديد مع الرمز هنا: YL4579/PitchExtractor.
مجلد Plbert : يحتوي على نموذج PL-Bert الذي تم تدريبه مسبقًا ، والذي تم تدريبه مسبقًا على مجموعة اللغة الإنجليزية (ويكيبيديا) فقط. ربما لا يعمل بشكل جيد للغاية على لغات أخرى ، لذلك ستحتاج إلى تدريب PL-Bert مختلف للغات المختلفة باستخدام repo هنا: YL4579/PL-Bert. يمكنك أيضًا استخدام PL-Bert متعدد اللغات الذي يدعم 14 لغة.

القضايا المشتركة

تصبح الخسارة نان : إذا كانت هذه هي المرحلة الأولى ، فالرجاء التأكد من أنك لا تستخدم الدقة المختلطة ، حيث يمكن أن تتسبب في أن تصبح الخسارة نان لبعض مجموعات البيانات المعينة عندما لا يتم ضبط حجم الدفعة بشكل صحيح (يجب أن يكون أكثر من 16 للعمل بشكل جيد). بالنسبة للمرحلة الثانية ، يرجى أيضًا تجربة أحجام الدُفعات المختلفة ، مع وجود أحجام دفع أعلى أكثر عرضة للتسبب في قيم فقدان النان. نوصي بحجم الدُفعة ليكون 16. يمكنك الرجوع إلى المشكلات رقم 10 و 11 لمزيد من التفاصيل.
خارج الذاكرة : يرجى إما استخدام batch_size أو max_len . يمكنك الرجوع إلى المشكلة رقم 10 لمزيد من المعلومات.
مجموعة البيانات غير الإنجليزية : يمكنك التدريب على أي لغة تريدها ، ولكن ستحتاج إلى استخدام نموذج PL-Bert الذي تم تدريبه مسبقًا لتلك اللغة. لدينا pl-bert متعددة اللغات تدرب مسبقا يدعم 14 لغة. يمكنك الرجوع إلى YL4579/Styletts #10 و #70 للحصول على بعض الأمثلة للتدريب على مجموعات البيانات الصينية.

الكون المثالى

يتم تعديل البرنامج النصي من train_second.py الذي يستخدم DP ، حيث لا يعمل DDP مع train_second.py . يرجى الاطلاع على القسم الغامق أعلاه إذا كنت على استعداد للمساعدة في هذه المشكلة.

python train_finetune.py --config_path ./Configs/config_ft.yml

يرجى التأكد من تنزيل نقطة تفتيش Libritts وفكها ضمن المجلد. التكوين الافتراضي config_ft.yml finetunes على ljspeech مع ساعة واحدة من بيانات الكلام (حوالي 1K عينات) لـ 50 epochs. استغرق هذا حوالي 4 ساعات لإنهاء أربع NVIDIA A100. تكون الجودة أسوأ قليلاً (على غرار NaturalSpeech على LJSpeech) من نموذج LJSPEEDE الذي تم تدريبه من نقطة الصفر مع 24 ساعة من بيانات الكلام ، والتي استغرقت حوالي 2.5 يومًا حتى النهاية على أربعة A100. يمكن العثور على العينات في #65 (تعليق).

إذا كنت تستخدم وحدة معالجة الرسومات الواحدة (لأن البرنامج النصي لا يعمل مع DDP) ويريد توفير سرعة التدريب و VRAM ، فيمكنك القيام (شكرًا Korakoe على صنع البرنامج النصي في #100):

accelerate launch --mixed_precision=fp16 --num_processes=1 train_finetune_accelerate.py --config_path ./Configs/config_ft.yml

القضايا المشتركة

قام Kreevoz بملاحظات مفصلة حول القضايا الشائعة في مجال العمل ، مع اقتراحات في تعظيم جودة الصوت: #81. بعض هذه تنطبق أيضا على التدريب من الصفر. @IieEnven11 قام أيضًا بإرشاد لضرب: #128.

خارج الذاكرة بعد joint_epoch : هذا على الأرجح لأن ذاكرة الوصول العشوائي الخاصة بك في GPU ليس كبيرًا بما يكفي لتشغيل SLM Perversarial Training. يمكنك تخطي ذلك ولكن الجودة قد تكون أسوأ. تعيين joint_epoch رقم أكبر من epochs يمكن أن تخطي تدريب SLM Advesariral.

الاستدلال

يرجى الرجوع إلى Interference_ljspeech.ipynb (مكبر صوت واحد) و Indeperation_libritts.ipynb (Multi-Speaker) للحصول على التفاصيل. بالنسبة إلى Libritts ، ستحتاج أيضًا إلى تنزيل Reference_audio.zip وفك ضغطه تحت العرض demo قبل تشغيل العرض التوضيحي.

يمكن تنزيل The Pretrained Styletts 2 على LJSPEED Corpus في 24 كيلو هرتز على https://huggingface.co/yl4579/styletts2-ljspeech/tree/main.
يمكن تنزيل طراز Styletts 2 على Libritts على https://huggingface.co/yl4579/styletts2-libritts/tree/main.

يمكنك استيراد Styletts 2 وتشغيله في الكود الخاص بك. ومع ذلك ، يعتمد الاستدلال على حزمة مرخصة من GPL ، لذلك لا يتم تضمينها مباشرة في هذا المستودع. يحتوي الشوكة المرخصة GPL على برنامج نصي قابل للاستيراد ، بالإضافة إلى واجهة برمجة تطبيقات البث التجريبية ، إلخ. تتوفر حزمة مرخصة بالكامل من معهد MIT تستخدم أيضًا (وإن كانت جودة أقل بسبب عدم التوافق بين الصوتيات و GRUUT).

قبل استخدام هذه النماذج التي تم تدريبها مسبقًا ، فإنك توافق على إبلاغ المستمعين بأن عينات الكلام يتم تصنيعها بواسطة النماذج التي تم تدريبها مسبقًا ، إلا إذا كان لديك إذن لاستخدام الصوت الذي تقوم بتوليفه. وهذا يعني أنك توافق على استخدام الأصوات التي تمنح متحدثوها إذنًا باستنساخ صوتهم ، إما مباشرة أو عن طريق الترخيص قبل جعل الأصوات المصنفة علنية ، أو يجب أن تعلن علنًا أن هذه الأصوات يتم تصنيعها إذا لم يكن لديك إذن لاستخدام هذه الأصوات.

القضايا المشتركة

ضوضاء الخلفية عالية النغمة : يحدث هذا بسبب اختلافات تعويم عددية في وحدات معالجة الرسومات القديمة. لمزيد من التفاصيل ، يرجى الرجوع إلى الإصدار رقم 13. في الأساس ، ستحتاج إلى استخدام وحدات معالجة الرسومات المزيد من وحدات معالجة الرسومات أو الاستدلال على وحدات المعالجة المركزية.
ترخيص النموذج الذي تم تدريبه قبل التدريب : تحتاج فقط إلى الالتزام بالقواعد المذكورة أعلاه إذا كنت تستخدم النماذج التي تم تدريبها مسبقًا والأصوات ليست في مجموعة التدريب ، أي أن مكبرات الصوت المرجعية الخاصة بك ليست من أي مجموعة بيانات وصول مفتوحة. لمزيد من تفاصيل القواعد لاستخدام النماذج التي تم تدريبها مسبقًا ، يرجى الاطلاع على #37.

مراجع

Archinetai/صوتي الانتشار pytorch
JIK876/HIFI-GAN
Rishikksh20/iStftnet-Pytorch
Nii-yamagishilab/Project-Nn-Pytorch-scripts/Project/01-NSF

رخصة

الرمز: ترخيص معهد ماساتشوستس للتكنولوجيا

النماذج التي تم تدريبها مسبقًا: قبل استخدام هذه النماذج التي تم تدريبها مسبقًا ، فإنك توافق على إبلاغ المستمعين بأن عينات الكلام يتم تصنيعها بواسطة النماذج التي تم تدريبها مسبقًا ، إلا إذا كان لديك إذن لاستخدام الصوت الذي تقوم بتجميعه. وهذا يعني أنك توافق على استخدام الأصوات التي تمنح متحدثوها إذنًا باستنساخ صوتهم ، إما مباشرة أو عن طريق الترخيص قبل جعل الأصوات المصنفة علنية ، أو يجب أن تعلن علنًا أن هذه الأصوات يتم تصنيعها إذا لم يكن لديك إذن لاستخدام هذه الأصوات.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-21
الحجم 133.9MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل