تنزيل reformer tts - تنزيل رمز المصدر reformer tts

reformer tts

كود الذكاء الاصطناعي

Initial release - project submission

تنزيل

المصلح tts

تكييف المصلح: المحول الفعال لمهمة النص إلى الكلام.

يحتوي هذا المشروع على:

رمز المعالجة المسبقة لإنشاء مجموعة بيانات الكلام ترامب على أساس النصوص من rev.com
تنفيذ مصلح TTS: تكييف لمصلح: المحول الفعال لمهمة النص إلى كلام ، استنادًا إلى توليف الكلام العصبي مع شبكة المحولات
تنفيذ SqueeZewave: المتفرجات خفيفة الوزن للغاية لتوليف الكلام على الجهاز في Pytorch الحديثة ، دون تبعيات على Tacotron2 أو Wavenet أو WaveGlow
أغلفة Lightning Pytorch للتدريب السهل على كلا النموذجين مع إدارة التكوين سهلة الاستخدام
CLI لتشغيل التدريب والاستدلال والمعالجة المسبقة للبيانات

نطاق المشروع والوضع الحالي

نحن نهدف إلى إنشاء نسخة أكثر فعالية بشكل ملحوظ من طراز النص إلى الحديث عن أحدث طراز ، من خلال استبدال بنية المحولات الخاصة بها بالتحسينات المقترحة في ورقة الإصلاحية الأكثر حداثة. سنستخدمه لإنشاء DeepFake المعقولة من Donald Trump استنادًا إلى مجموعة بيانات مخصصة من خطبه ، تم إنشاؤها خصيصًا لهذا الغرض.

لسوء الحظ ، لم نتمكن من تحقيق نتائج تطابق نتائج من ورق Transformer TTS ، بعد تجربة أكثر من 100 مجموعة من الفائقة على مدار شهرين. نعتقد أن حجم النموذج هو عامل مهم هنا ، وتدريب المحولات لـ TTS ، يحتاج المرء حقًا إلى تقليل الإضافات للسماح بعملية تدريب طويلة وثابتة (حوالي أسبوع واحد من التدريب على RTX 2080TI).

أيضا ، فإن الوصول إلى التنفيذ الأصلي لـ Transformer TTS سيساعد بشكل كبير.

على الرغم من أن المصلح لم يتطابق مع توقعاتنا ، إلا أن تنفيذ SqueeZewave يطابق أداء واحد الأصلي بدون دعم FP16.

ندرج أيضًا CLI لتشغيل التدريب والاستدلال (انظر قسم الاستخدام ) ، وجميع البيانات اللازمة لاستنساخ التجارب (انظر قسم التطوير ).

يخضع المشروع تحت Refactor مهم ، ويتم ترك هذا الإصدار هنا للسماح بالتوافق مع إشرافنا السابق وسيتم نقله في المستقبل القريب .

وثائق إضافية

العرض النهائي والشرائح
مجلة المشروع
وثيقة البحث

باستخدام المشروع

هذا المشروع عبارة عن حزمة Python عادية ، ويمكن تثبيتها باستخدام pip ، طالما أن لديك Python 3.8 أو أكثر .

انتقل إلى صفحة الإصدارات للعثور على تعليمات التثبيت لأحدث الإصدار.

بعد التثبيت ، يمكنك رؤية الأوامر المتاحة عن طريق التشغيل:

python -m reformer_tts.cli --help

يتم تنفيذ جميع الأوامر باستخدام CLI ، على سبيل المثال:

python -m reformer_tts.cli train-vocoder

يتم تحديد معظم المعلمات (على وجه الخصوص ، جميع أجهزة التدريب المفرطة) عبر الوسيطة --config إلى cli (الذي يذهب قبل الأمر الذي تريد تشغيله) ، على سبيل المثال:

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

يمكن العثور على القيم الافتراضية في reformer_tts.config.Config (وحقولها).

إعداد التنمية

1. تثبيت التبعيات

باستخدام كوندا

بفضل مجتمع كوندا فورج ، يمكننا تثبيت جميع الحزم (بما في ذلك الثنائيات اللازمة ، مثل ffmpeg ) باستخدام أمر واحد.

conda env create -f environment.yml

باستخدام مديري الحزم الآخرين

تحقق من بيئتك وتأكد من أن لديك Python>=3.8 :

which python
python --version

قم بتثبيت تبعيات Python (يقوم أيضًا بتثبيت الحزمة الخاصة بنا في الوضع القابل للتحرير):

pip install -r requirements.txt

تأكد من أن لديك ffmpeg>=3.4,<4.0 مثبت (تعليمات التثبيت)
للتدريب ، تأكد من تثبيت برامج تشغيل CUDA و GPU (للحصول على التفاصيل ، راجع التعليمات على موقع Pytorch)

2. تكوين الأدوات

لكي تتمكن DVC من الوصول إلى جهاز التحكم عن بُعد ، قم بتكوين حساب GCP الخاص بك (باستخدام بيانات الاعتماد من ملف JSON الذي تم إنشاؤه):

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

ملاحظة: إذا كنت بحاجة فقط إلى قراءة Acces (للاستنساخ) ، فلن تحتاج إلى تنفيذ الخطوة 1

احصل على جميع البيانات - يجب تكرار هذه الخطوة:
- في كل مرة تبدأ العمل بعد استراحة
- بعد كل سحب git
- بعد التحقق من فرع GIT آخر

dvc pull

3. تحقق مما إذا كان الإعداد صحيحًا

للقيام بذلك ، يمكنك تشغيل اختبارات المشروع:

python -m pytest --pyargs reformer_tts

يجب أن تعمل جميع الاختبارات على وحدة المعالجة المركزية و GPU ، وقد تستغرق ما يصل إلى دقيقة لإكمالها.

تذكر أن تمر --pyargs reformer_tts إلى Pytest ، وإلا فإنها ستبحث في أدلة البيانات للاختبارات

تفاصيل الإعداد

استخدم أي مدير حزمة تريده
استخدم Python>=3.8
جميع تبعيات بيثون ستكون في requirements.txt وكذلك في environment.yml
نقطة دخول مركزية واحدة لمهام التشغيل: reformer_tts/cli.py ، Run python reformer_tts/cli.py --help للمرجع التفصيلي

إعدادات

يتم تنظيم التكوين في هياكل DataClass:

تحتوي كل عرض فرعي للمشروع على ملف تكوين خاص به ، يسمى config.py ، حيث يتم تحديد المعلمات والقيم الافتراضية - على سبيل المثال ، يتم تحديد معلمات تكوين مجموعة البيانات في reformer_tts.dataset.config
تحتوي فئة reformer_tts.config.Config على جميع إعدادات التكوين الفرعية
يتم تحميل القيم الفعلية لمعلمات التكوين من ملفات التكوين بتنسيق YAML ، أفضل الممارسات هي تجاوز الافتراضات فقط في ملفات YAML

وبهذه الطريقة ، يتم تعيين القيم الافتراضية بالقرب من المكان الذي يتم استخدامه فيه ، يمكن تجاوز أي قيمة تكوين أينما تريد

لتغيير تكوين وقت التشغيل

قم بإنشاء التكوين تلقائيًا بالقيم الافتراضية باستخدام Command python reformer_tts/cli.py save-config -o config/custom.yml أو نسخ أحد ملفات التكوين الموجودة في config/ الدليل
إزالة الافتراضات التي لا ترغب في تغييرها من ملف التكوين الذي تم إنشاؤه
تغيير القيم التي ترغب في تغييرها في ملف التكوين الذي تم إنشاؤه
حدد التكوين الخاص بك عند تشغيل البرامج النصية CLI باستخدام خيار -c ، أي: python reformer_tts/cli.py -c config/custom.yml [COMMAND]

لإضافة تكوين لوحدة جديدة

إنشاء config.py في الوحدة النمطية الخاصة بك
تحديد نموذج DataClass مع جميع معلمات التكوين اللازمة في الملف الجديد:
- تأكد من عدم إعادة تعريف قيم المعلمة لملفات التكوين الأخرى (أي حدد عدد قنوات الطيف مرة واحدة فقط - في نفس المكان لكل squeezewave dataset
- تأكد من أن الفصل الخاص بك لديه قيم افتراضية لجميع المعلمات
أضف حقلًا لـ DataClass الخاص بك في فئة التكوين الرئيسية reformer_tts.config

تبعيات البيانات

نستخدم DVC لتحديد خطوط أنابيب معالجة البيانات. يتم إعداد Remote على Google Cloud Storage ، للحصول على تفاصيل قم بتشغيل dvc config list .

الإعداد لتشغيل الوظائف على مجموعة الانتروبيا

العقد المعدة للركض:

ASUSGPU3
ASUSGPU4
ASUSGPU1
أرنولد
سيلفستر

تشغيل Trainig على العقدة مع Homedir

استنساخ repo إلى homedir الخاص بك
تأكد من تكوين مسار مجموعة البيانات في /scidatalg
أمر الإعداد للاتصال بالملف من homedir الخاص بك
ارتكب تغييراتك
تشغيل Sbatch Script

تشغيل التدريب على عقدة محددة دون homedir

قبل الجولة:

اختار العقدة من إعداد أو إعداد واحد جديد باستخدام التعليمات أدناه
نسخ مستودع إلى منزلك دير
تأكد من وضع رمز Neptune API في بيئتك

لتشغيل التدريب:

قم بإعداد تكوين التدريب ودفعه إلى مستودع عن بُعد
تسجيل الدخول إلى العقدة المختارة باستخدام جلسة تفاعلية srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
GOTO /scidatalg/reformer-tts/reformer-tts/ تأكد من سحب المستودع وفي الفرع المناسب
تسجيل الدخول إلى عقدة تسجيل الدخول
نسخ وتعديل jobs/train_entropy.sbatch - تعبئة اسم العقدة وأمر التدريب
قم بتشغيل sbatch your/job/script/location.sbatch

pro tip watch -n 1 squeue -u your_username لمشاهدة ما إذا كانت وظيفتك تعمل بالفعل على تشغيل pro tip2 ، يمكنك مشاهدة التحديثات إلى السجل عن طريق تشغيل tail -f file.log أو less --follow-name +F file.log

سحب من DVC

للسحب من DVC استخدام jobs/entropy_dvc_pull.sbatch .

انسخ هذا الملف
ملء اسم العقدة
ضبط الأمر DVC
تشغيل الوظيفة باستخدام Sbatch

تحضير عقدة جديد

نظرًا لأن دليل /scidatasm لا يتزامن بينما نريد التدريب ، يتعين علينا إعداد التدريب على كل عقدة بشكل منفصل باليد. لإعداد ENV على العقدة الجديدة اتبع هذه المؤسسات:

ملاحظة : يتم دعم العقد فقط مع /scidatalg بواسطة هذه البرامج النصية. هذه العقد هي: ASUSGPU4 ، ASUSGPU3 ، ASUSGPU2 ، ASUSGPU1 ، ARNOLD ، SYLVESTER

تسجيل الدخول إلى العقدة باستخدام الجلسة التفاعلية srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
انسخ بيانات اعتماد Google API إلى ${HOME}/gcp-cred.json (باستخدام المحرر المفضل لديك)
انسخ محتوى scripts/setup_entropy_node.sh إلى ملف جديد في المنزل dir (مرة أخرى باستخدام المحرر)
تشغيل البرنامج النصي المنسوخ

يوسع

معلومات إضافية

الإصدار Initial release - project submission
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-24
الحجم 129.95KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
معلومات باللغة الإنجليزية عن تطوير الصوت (دليل مستخدم TTS إصدار دلفي)

2009-05-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل