تنزيل EzAudio - تنزيل رمز المصدر EzAudio

EzAudio

شفرة المصدر الأخرى

1.0.0

تنزيل

Ezaudio: تعزيز توليد النص إلى أذو مع محول انتشار فعال

؟ Ezaudio هو نموذج توليد نص إلى النشر القائم على الانتشار. تم تصميم Ezaudio لتطبيقات الصوت في العالم الحقيقي ، ويجمع توليفًا صوتيًا عالي الجودة مع متطلبات حسابية أقل.

؟ العب مع Ezaudio من أجل توليد النص والتحرير ، و inpainting: Ezaudio Space

؟ Ezaudio-Controlnet متاح: مساحة Ezaudio-Controlnet

تثبيت

استنساخ المستودع:

 git clone [email protected]:haidog-yaqub/EzAudio.git

تثبيت التبعيات:

 cd EzAudio
pip install -r requirements.txt

تنزيل checkponts (اختياري): https://huggingface.co/Opensound/ezaudio

الاستخدام

يمكنك استخدام النموذج مع الكود التالي:

 from api . ezaudio import EzAudio
import torch
import soundfile as sf

# load model
device = 'cuda' if torch . cuda . is_available () else 'cpu'
ezaudio = EzAudio ( model_name = 's3_xl' , device = device )

# text to audio genertation
prompt = "a dog barking in the distance"
sr , audio = ezaudio . generate_audio ( prompt )
sf . write ( f' { prompt } .wav' , audio , sr )

# audio inpainting
prompt = "A train passes by, blowing its horns"
original_audio = 'ref.wav'
sr , audio = ezaudio . editing_audio ( prompt , boundary = 2 , gt_file = original_audio ,
                                  mask_start = 1 , mask_length = 5 )
sf . write ( f' { prompt } _edit.wav' , audio , sr )

تودو

الافراج عن Gradio Demo مع نقاط التفتيش Ezaudio Space
التحرير ControlNet Demo جنبا إلى جنب مع نقاط التفتيش Ezaudio controlnet مساحة
رمز الاستدلال الإصدار
تحسين API ودعم تنزيل CKPTS التلقائي [WIP]
تحرير نقاط التفتيش للمرحلة 1 و stage2
إصدار خط أنابيب التدريب ومجموعة البيانات

مرجع

إذا وجدت الرمز مفيدًا لبحثك ، فيرجى التفكير في:

 @article { hai2024ezaudio ,
  title = { EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer } ,
  author = { Hai, Jiarui and Xu, Yong and Zhang, Hao and Li, Chenxing and Wang, Helin and Elhilali, Mounya and Yu, Dong } ,
  journal = { arXiv preprint arXiv:2409.10819 } ,
  year = { 2024 }
}

شكر وتقدير

يتم استعارة بعض الرموز من أو مستوحاة من: U-Vit و Pixel-Art و Huyuan-Dit و Setable Audio.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-09
الحجم 2.75MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل