تنزيل emospeech - تنزيل رمز مصدر emospeech

emospeech

كود الذكاء الاصطناعي

1.0.0

تنزيل

Emospeech: توجيه Fastspeech2 نحو النص العاطفي إلى الكلام

كيفية الجري

بناء البيئة

يمكنك بناء بيئة مع Docker أو Conda .

لإنشاء بيئة مع Docker

إذا لم يكن لديك تثبيت Docker ، فيرجى اتباع الروابط للعثور على تعليمات التثبيت لـ Ubuntu أو Mac أو Windows.

بناء صورة Docker:

 docker build -t emospeech .

تشغيل صورة Docker:

 bash run_docker.sh

لإنشاء بيئة مع كوندا

إذا لم يكن لديك Conda مثبتة ، فيرجى العثور على تعليمات التثبيت لنظام التشغيل الخاص بك هنا.

  conda create -n etts python=3.10
  conda activate etts
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  pip install -r requirements.txt

إذا كان لديك إصدار مختلف من CUDA على جهازك ، فيمكنك العثور على رابط قابل للتطبيق لتثبيت Pytorch هنا.

تنزيل البيانات وبيانات المعالجة المسبقة

استخدمنا بيانات 10 مكبرات صوت باللغة الإنجليزية من مجموعة بيانات ESD. لتنزيل جميع ملفات .wav ، .txt جنبًا إلى جنب مع ملفات .TextGrid التي تم إنشاؤها باستخدام MFA:

  bash download_data.sh

لتدريب نموذج ، نحتاج إلى فترات محسوبة ، وميزات الطاقة ، والملعب ، و egemap. من دليل دليل src :

  python -m src.preprocess.preprocess

هذه هي الطريقة التي يجب أن يبدو بها مجلد البيانات الخاص بك:

  .
  ├── data
  │   ├── ssw_esd
  │   ├── test_ids.txt
  │   ├── val_ids.txt
  └── └── preprocessed
          ├── duration
          ├── egemap
          ├── energy
          ├── mel
          ├── phones.json
          ├── pitch
          ├── stats.json
          ├── test.txt
          ├── train.txt
          ├── trimmed_wav
          └── val.txt

تمرين

تكوين الوسائط في config/config.py .
تشغيل python -m src.scripts.train .

الاختبار

يتم تنفيذ الاختبار على مجموعة فرعية اختبار مجموعة بيانات ESD. لتوليف الصوت وحساب MOS العصبي (NISQA TTS):

تكوين الوسيطات في config/config.py ضمن قسم Inference .
تشغيل python -m src.scripts.test .

يمكنك العثور على NISQA TTS لصوت أصلي ، أعيد بناؤه وإنشاء في test.log .

الاستدلال

يتم تدريب Emospeech على تسلسل phoneme. يمكن العثور على الهواتف المدعومة في data/preprocessed/phones.json . يتم إنشاء هذا REPOSTROY للبحث الأكاديمي ولا يدعم تحويل GRAPHEME إلى PHONEME التلقائي. ومع ذلك ، إذا كنت ترغب في تجميع جملة تعسفية مع تكييف العاطفة ، فيمكنك:

توليد تسلسل صوتي من الرسوم البيانية مع MFA.
1.1 اتبع دليل التثبيت
1.2 تنزيل English G2P Model: mfa model download g2p english_us_arpa
1.3 إنشاء phoneme.txt من graphemes.txt: mfa g2p graphemes.txt english_us_arpa phoneme.txt
Run python -m src.scripts.inference ، تحديد الوسائط:

аrgument	معنى	القيم الممكنة	القيمة الافتراضية
`-sq`	تسلسل صوتي لتوليف	البحث في `data/phones.json` .	لا تعيين ، حجة مطلوبة.
`-emo`	معرف العاطفة الصوتية المطلوبة	0: محايد ، 1: غاضب ، 2: سعيد ، 3: حزين ، 4: مفاجأة.	1
`-sp`	معرف صوت المتحدث	من 1 إلى 10 ، تتوافق مع 0011 ... 0020 في تدوين ESD الأصلي.	5
`-p`	المسار حيث لحفظ الصوت المركب	أي مع `.wav` تمديد.	generation_from_phoneme_sequence.wav

على سبيل المثال

 python -m src.scripts.inference --sq "S P IY2 K ER1 F AY1 V  T AO1 K IH0 NG W IH0 TH AE1 NG G R IY0 IH0 M OW0 SH AH0 N"

إذا لم يتم توليف ملف النتيجة ، تحقق من inference.log للهواتف OOV.

مراجع

Fastspeech 2 - تطبيق Pytorch
ISTftnet: Vocoder سريع وخفيف الوزن الطيف يضم تحويل فورييه القصيرة الأوقات العكسية
مجموعة بيانات الكلام العاطفية المتاحة للجمهور (ESD) لتوليف الكلام وتحويل الصوت
NISQA: جودة الكلام وتقييم الطبيعية
مونتريال أجبر نماذج Aligner
تعديل فوتغان
adaspeech

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-25
الحجم 1.15MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل