تنزيل Cross Speaker Emotion Transfer - تنزيل رمز مصدر Cross Speaker Emotion Transfer

Cross Speaker Emotion Transfer

كود الذكاء الاصطناعي

v0.2.0

تنزيل

نقل المتقاطع-الانتقال-تنفيذ Pytorch

تنفيذ Pytorch لنقل العاطفة المتقاطع من Bytedance استنادًا إلى تطبيع طبقة حالة السماعة والتدريب شبه الخاضع للإشراف في نص إلى كلام.

عينات الصوت

عينات الصوت متوفرة في /العرض التوضيحي.

Quickstart

تشير مجموعة البيانات إلى أسماء مجموعات البيانات مثل RAVDESS في المستندات التالية.

التبعيات

يمكنك تثبيت تبعيات Python مع

 pip3 install -r requirements.txt

أيضًا ، قم بتثبيت FairSeq (المستند الرسمي ، Github) لاستخدام LConvBlock . يرجى التحقق هنا لحل أي مشكلة عند تثبيتها. لاحظ أنه يتم توفير Dockerfile لمستخدمي Docker ، ولكن يجب عليك تثبيت FairSeq يدويًا.

الاستدلال

يجب عليك تنزيل النماذج المسبقة ووضعها في output/ckpt/DATASET/ .

لاستخراج الرموز العاطفية الناعمة من صوت مرجعي ، قم بتشغيل

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

أو ، لاستخدام الرموز العاطفية الصعبة من معرف العاطفة ، قم بالتشغيل

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

يمكن العثور على قاموس مكبرات الصوت المستفادة في preprocessed_data/DATASET/speakers.json output/result/

استنتاج الدُفعات

يتم دعم استنتاج الدُفعات أيضًا ، حاول

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

لتوليف جميع الكلمات في preprocessed_data/DATASET/val.txt . يرجى ملاحظة أنه يتم دعم الرموز العاطفية القاسية فقط من معرف العاطفة المعطى في هذا الوضع.

تمرين

مجموعات البيانات

مجموعات البيانات المدعومة

RAVDESS: يحتوي هذا الجزء من Ravdess على 1440 ملفًا: 60 تجربة لكل ممثل × 24 ممثلين = 1440. يحتوي Ravdess على 24 ممثلًا محترفًا (12 أنثى ، 12 ذكرًا) ، صوتية اثنين من البيانات المتطابقة معجزة في لهجة محايدة في أمريكا الشمالية. تشمل عواطف الكلام الهدوء والسعيد والحزن والغضب والخوف والمفاجأة والاشمئزاز. يتم إنتاج كل تعبير على مستويين من الكثافة العاطفية (طبيعية ، قوية) ، مع تعبير محايد إضافي.

يمكن تكييف لغتك ومجموعة البيانات الخاصة بك هنا.

المعالجة المسبقة

للحصول على TTS متعددة الكلام مع مكبر صوت خارجي ، قم بتنزيل نموذج RAVERMAX+TREPLET PRESTERED من Deepspeaker من Philipperemy لدمجه ويحدد موقعه ./deepspeaker/pretrained_models/
يجري
```
 python3 prepare_align.py --dataset DATASET
```
لبعض الاستعدادات.
بالنسبة للمحاذاة القسرية ، يتم استخدام Montreal القسري Aligner (MFA) للحصول على المحاذاة بين الكلمات وتسلسلات الصوت. يتم توفير محاذاة مسبقًا لمجموعات البيانات هنا. يجب عليك إلغاء ضغط الملفات في preprocessed_data/DATASET/TextGrid/ . بالتناوب ، يمكنك تشغيل جهاز Aligner بنفسك.
بعد ذلك ، قم بتشغيل البرنامج النصي المسبق
```
 python3 preprocess.py --dataset DATASET
```

تمرين

تدريب النموذج الخاص بك مع

 python3 train.py --dataset DATASET

خيارات مفيدة:

لاستخدام الدقة المختلطة التلقائية ، قم بإلحاق الوسيطة --use_amp إلى الأمر أعلاه.
يفترض المدرب تدريبًا واحدًا من العقد المتعددة GPU. لاستخدام وحدات معالجة الرسومات المحددة ، حدد CUDA_VISIBLE_DEVICES=<GPU_IDs> في بداية الأمر أعلاه.

Tensorboard

يستخدم

 tensorboard --logdir output/log

لخدمة Tensorboard على مضيفك المحلي. يتم عرض منحنيات الخسارة ، وتوليف الطيف الطيف ، والسمعات.

ملحوظات

لا يتم تدريب التنفيذ الحالي بطريقة شبه خاضعة للإشراف بسبب حجم مجموعة البيانات الصغيرة. ولكن يمكن تنشيطه بسهولة عن طريق تحديد مكبرات الصوت المستهدفة وتمرير أي معرف العاطفة مع عدم وجود فقدان مصنف العاطفة.
في وحدة فك الترميز ، يتم استخدام كتلة 15 × 1 LCONV بدلاً من 17 × 1 بسبب مشكلات الذاكرة.
خياران للتضمين لإعداد TTS متعدد المتحدثين : مكبر الصوت التدريبي من الصفر أو استخدام نموذج DeepSpeaker في Philipperemy المدربين مسبقًا (كما فعل Styler). يمكنك تبديله عن طريق ضبط التكوين (بين 'none' و 'DeepSpeaker' ).
DeepSpeaker على مجموعة بيانات Ravdess تعرض تحديدًا واضحًا بين المتحدثين. يوضح الشكل التالي مؤامرة T-sne من مكبر الصوت المستخرج.