تنزيل hifi gan - تنزيل رمز المصدر hifi gan

hifi gan

كود الذكاء الاصطناعي

1.0.0

تنزيل

HIFI-Gang

Jungil Kong ، Jaehyeon Kim ، Jaekyoung Bae

في ورقتنا ، اقترحنا HIFI-GAN: نموذج قائم على GAN قادر على توليد خطاب عالي الإخلاص بكفاءة.
نحن نقدم تنفيذنا ونماذج ما قبل المصدر مفتوح المصدر في هذا المستودع.

الخلاصة: استخدمت العديد من الأعمال الحديثة في تخليق الكلام شبكات عدوانية (GANS) لإنتاج أشكال موجية خام. على الرغم من أن مثل هذه الطرق تعمل على تحسين كفاءة أخذ العينات واستخدام الذاكرة ، إلا أن جودة عينةها لم تصل بعد إلى تلك النماذج التوليدية القائمة على التدفق الذاتي. في هذا العمل ، نقترح HIFI-GAN ، الذي يحقق كل من توليف الكلام الفعال والعالي الدقة. نظرًا لأن صوت الكلام يتكون من إشارات الجيوب الأنفية مع فترات مختلفة ، فإننا نوضح أن نمذجة الأنماط الدورية للصوت أمر بالغ الأهمية لتعزيز جودة العينة. يشير التقييم البشري الذاتي (متوسط درجة الرأي ، MOS) لمجموعة بيانات مكبر الصوت واحدة إلى أن طريقتنا المقترحة توضح التشابه مع الجودة البشرية مع توليد 22.05 كيلو هرتز الصوت عالي الدقة 167.9 مرة أسرع من الوقت الفعلي على وحدة معالجة الرسومات V100 واحدة. نوضح أيضًا عمومية HIFI-GAN إلى انعكاس طيف الطيف للمكبرات غير المرئية وتوليف الكلام من شامل إلى طرف. أخيرًا ، تقوم نسخة صغيرة من البصمة من HIFI بإنشاء عينات أسرع 13.4 مرة من الوقت الفعلي على وحدة المعالجة المركزية مع جودة مماثلة لنظير الانحدار التلقائي.

تفضل بزيارة موقعنا التجريبي لعينات الصوت.

المتطلبات المسبقة

بيثون> = 3.6
استنساخ هذا المستودع.
تثبيت متطلبات بيثون. يرجى إحالة المتطلبات. txt
قم بتنزيل واستخراج مجموعة بيانات الكلام LJ. ونقل جميع ملفات WAV إلى LJSpeech-1.1/wavs

تمرين

 python train.py --config config_v1.json

لتدريب مولد V2 أو V3 ، استبدل config_v1.json باستخدام config_v2.json أو config_v3.json .
يتم حفظ نقاط التفتيش ونسخ ملف التكوين في دليل cp_hifigan افتراضيًا.
يمكنك تغيير المسار عن طريق إضافة -خيار --checkpoint_path .

خسارة التحقق من الصحة أثناء التدريب مع مولد V1.
فقدان التحقق

نموذج ما قبل

يمكنك أيضًا استخدام النماذج المسبقة التي نقدمها.
تنزيل النماذج المسبق
تفاصيل كل مجلد كما في التالي:

اسم المجلد	مولد	مجموعة البيانات	ضبطها
LJ_V1	V1	ljspeech	لا
LJ_V2	V2	ljspeech	لا
LJ_V3	V3	ljspeech	لا
LJ_FT_T2_V1	V1	ljspeech	نعم (Tacotron2)
lj_ft_t2_v2	V2	ljspeech	نعم (Tacotron2)
lj_ft_t2_v3	V3	ljspeech	نعم (Tacotron2)
VCTK_V1	V1	VCTK	لا
VCTK_V2	V2	VCTK	لا
VCTK_V3	V3	VCTK	لا
Universal_V1	V1	عالمي	لا

نحن نوفر النموذج العالمي مع أوزان تمييز يمكن استخدامها كقاعدة لتحويل التعلم إلى مجموعات البيانات الأخرى.

الكون المثالى

قم بإنشاء طيف الميل بتنسيق numpy باستخدام tacotron2 مع توجيه المعلم.
يجب أن يتطابق اسم ملف MEL-SPECTROGRAR الذي تم إنشاؤه مع ملف الصوت ويجب أن يكون التمديد .npy .
مثال:
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
قم بإنشاء مجلد ft_dataset ونسخ ملفات طيف MEL-SPERCORGR التي تم إنشاؤها فيه.
تشغيل الأمر التالي.
```
 python train.py --fine_tuning True --config config_v1.json
```
لخيارات سطر الأوامر الأخرى ، يرجى الرجوع إلى قسم التدريب.

الاستدلال من ملف WAV

اجعل دليل test_files ونسخ ملفات WAV إلى الدليل.

تشغيل الأمر التالي.

 python inference.py --checkpoint_file [generator checkpoint file path]

يتم حفظ ملفات WAV التي تم إنشاؤها في generated_files بشكل افتراضي.
يمكنك تغيير المسار عن طريق إضافة --output_dir خيار.

الاستدلال لتوليف الكلام الشامل

اجعل دليل test_mel_files ونسخ ملفات طيف Mel-spectrogram التي تم إنشاؤها في الدليل.
يمكنك إنشاء طيف ميل باستخدام tacotron2 ، توهج tts وما إلى ذلك.

تشغيل الأمر التالي.

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

يتم حفظ ملفات WAV التي تم إنشاؤها في generated_files_from_mel بشكل افتراضي.
يمكنك تغيير المسار عن طريق إضافة --output_dir خيار.

شكر وتقدير

أشرنا إلى WaveGlow و Melgan و Tacotron2 لتنفيذ هذا.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-21
الحجم 606.93KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
إصدار فايبر هاي فاي للأندرويد

2024-04-07
تطبيق فايبر هاي فاي

2023-06-04
تحميل لعبة ميني هاي فاي سيتي

2023-03-16

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل