EzAudio
1.0.0

؟ Ezaudio هو نموذج توليد نص إلى النشر القائم على الانتشار. تم تصميم Ezaudio لتطبيقات الصوت في العالم الحقيقي ، ويجمع توليفًا صوتيًا عالي الجودة مع متطلبات حسابية أقل.
؟ العب مع Ezaudio من أجل توليد النص والتحرير ، و inpainting: Ezaudio Space
؟ Ezaudio-Controlnet متاح: مساحة Ezaudio-Controlnet
استنساخ المستودع:
git clone [email protected]:haidog-yaqub/EzAudio.git
تثبيت التبعيات:
cd EzAudio
pip install -r requirements.txt
تنزيل checkponts (اختياري): https://huggingface.co/Opensound/ezaudio
يمكنك استخدام النموذج مع الكود التالي:
from api . ezaudio import EzAudio
import torch
import soundfile as sf
# load model
device = 'cuda' if torch . cuda . is_available () else 'cpu'
ezaudio = EzAudio ( model_name = 's3_xl' , device = device )
# text to audio genertation
prompt = "a dog barking in the distance"
sr , audio = ezaudio . generate_audio ( prompt )
sf . write ( f' { prompt } .wav' , audio , sr )
# audio inpainting
prompt = "A train passes by, blowing its horns"
original_audio = 'ref.wav'
sr , audio = ezaudio . editing_audio ( prompt , boundary = 2 , gt_file = original_audio ,
mask_start = 1 , mask_length = 5 )
sf . write ( f' { prompt } _edit.wav' , audio , sr )إذا وجدت الرمز مفيدًا لبحثك ، فيرجى التفكير في:
@article { hai2024ezaudio ,
title = { EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer } ,
author = { Hai, Jiarui and Xu, Yong and Zhang, Hao and Li, Chenxing and Wang, Helin and Elhilali, Mounya and Yu, Dong } ,
journal = { arXiv preprint arXiv:2409.10819 } ,
year = { 2024 }
}يتم استعارة بعض الرموز من أو مستوحاة من: U-Vit و Pixel-Art و Huyuan-Dit و Setable Audio.