تنزيل GenerSpeech - تنزيل رمز مصدر GenerSpeech

GenerSpeech

كود الذكاء الاصطناعي

1.0.0

تنزيل

GenerSpeech: نحو نقل الأسلوب من أجل النص إلى الكلام القابل للتعميم

Rongjie Huang ، Yi Ren ، Jinglin Liu ، Chenye Cui ، Zhou Zhao | جامعة Zhejiang ، Sea AI Lab

تنفيذ Pytorch لـ GenerSpeech (Neurips'22): نموذج نص إلى خطط نحو نقل نمط الصفر العالي الصفر للصوت المخصص.

نحن نقدم تنفيذنا ونماذج ما قبل ذلك في هذا المستودع.

تفضل بزيارة الصفحة التجريبية الخاصة بنا لعينات الصوت.

أخبار

ديسمبر ، 2022: تم إصدار GenerSpeech (Neups 2022) في Github.

الميزات الرئيسية

نقل النمط متعدد المستويات للنص التعبيري إلى الكلام.
تعميم النموذج المعزز إلى مرجع نمط خارج التوزيع (OOD).

بدأ سريع

نحن نقدم مثالاً على كيفية إنشاء عينات عالية الدقة باستخدام GenerSpeech.

لتجربة مجموعة البيانات الخاصة بك ، ما عليك سوى استنساخ هذا الريبو في الجهاز المحلي الخاص بك مزودًا بـ NVIDIA GPU + CUDA CUDNN واتبع التعليمات أدناه.

دعم مجموعات البيانات والنماذج المسبقة

يمكنك استخدام النماذج المسبقة التي نقدمها هنا ، والبيانات هنا. تفاصيل كل مجلد كما في التالي:

نموذج	مجموعة البيانات (16 كيلو هرتز)	وصف
Generspeech	Libritts ، ESD	نموذج صوتي (التكوين)
HIFI-GAN	Libritts ، ESD	الصوت العصبي
تشفير	/	تشفير العاطفة

المزيد من مجموعات البيانات المدعومة قريبا.

التبعيات

يمكن إنشاء وتنشيط بيئة مناسبة Conda المسماة generspeech وتنشيطها مع:

 conda env create -f environment.yaml
conda activate generspeech

متعدد GPU

بشكل افتراضي ، يستخدم هذا التنفيذ أكبر عدد ممكن من وحدات معالجة الرسومات بالتوازي مع إرجاع torch.cuda.device_count() . يمكنك تحديد وحدات معالجة الرسومات التي يجب استخدامها عن طريق تعيين متغير البيئة CUDA_DEVICES_AVAILABLE قبل تشغيل وحدة التدريب.

الاستدلال (صفر طلقة TTS)

نحن هنا نقدم خط أنابيب تخليق الكلام باستخدام GenerSpeech.

إعداد GenerSpeech (نموذج صوتي): قم بتنزيل وتوضع نقطة تفتيش عند checkpoints/GenerSpeech
قم بإعداد HIFI-GAN (VOCODER NEURAL): تنزيل ووضع نقطة تفتيش عند checkpoints/trainset_hifigan
قم بإعداد المشفر العاطفي : قم بتنزيل وضع نقطة تفتيش عند checkpoints/Emotion_encoder.pt
إعداد مجموعة البيانات : قم بتنزيل ووضع الملفات الإحصائية على data/binary/training_set
قم بإعداد المسار/إلى/reference_audio (16k) : افتراضيًا ، يستخدم GenerSpeech ASR + MFA للحصول على محاذاة نص النص من المرجع.

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

يتم حفظ ملفات WAV التي تم إنشاؤها في infer_out افتراضيًا.

تدريب النموذج الخاص بك

إعداد البيانات والتكوين

SET raw_data_dir ، processed_data_dir ، binary_data_dir في ملف التكوين ، وقم بتنزيل مجموعة البيانات إلى raw_data_dir .
تحقق من preprocess_cls في ملف التكوين. تحتاج بنية مجموعة البيانات إلى اتباع المعالج preprocess_cls ، أو يمكنك إعادة كتابتها وفقًا لمجموعة البيانات الخاصة بك. نحن نقدم معالج Libritts كمثال في modules/GenerSpeech/config/generspeech.yaml
قم بتنزيل تشفير العاطفة العالمية إلى emotion_encoder_path . لمزيد من التفاصيل ، يرجى الرجوع إلى هذا الفرع.
مجموعة بيانات المعالجة المسبقة

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

يمكنك أيضًا إنشاء مجموعة بيانات عبر Natspeech ، والتي تشترك في إجراء معالجة بيانات MFA مشتركة. نحن نقدم أيضًا مجموعة البيانات المصنعة (16 كيلو هرتز Libritts+ESD).

تدريب Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

الاستدلال باستخدام Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

شكر وتقدير

يستخدم هذا التنفيذ أجزاء من الكود من GitHub Repos التالية: FastDiff ، Natspeech ، كما هو موضح في الكود لدينا.

الاستشهادات

إذا وجدت هذا الرمز مفيدًا في بحثك ، فيرجى الاستشهاد بعملنا:

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}

تنصل

يُحظر على أي منظمة أو فرد استخدام أي تقنية مذكورة في هذه الورقة لتوليد خطاب شخص ما دون موافقته ، بما في ذلك على سبيل المثال لا الحصر قادة الحكومة والشخصيات السياسية والمشاهير. إذا كنت لا تمتثل لهذا العنصر ، فقد تكون في انتهاك لقوانين حقوق الطبع والنشر.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-22
الحجم 256.8KB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل