Téléchargement EzAudio - Téléchargement du code source EzAudio

EzAudio

Autre code source

1.0.0

Télécharger

Ezaudio: améliorer la génération de texte à audio avec un transformateur de diffusion efficace

? Ezaudio est un modèle de génération de texte à audio basé sur la diffusion. Conçu pour les applications audio du monde réel, Ezaudio rassemble une synthèse audio de haute qualité avec des demandes de calcul plus faibles.

? Jouez avec Ezaudio pour la génération de texte à audio, l'édition et la déainte: Ezaudio Space

? Ezaudio-ControlNet est disponible: Ezaudio-Controlnet Space

Installation

Clone le référentiel:

 git clone [email protected]:haidog-yaqub/EzAudio.git

Installez les dépendances:

 cd EzAudio
pip install -r requirements.txt

Télécharger CheckPonts (facultatif): https://huggingface.co/opensend/ezaudio

Usage

Vous pouvez utiliser le modèle avec le code suivant:

 from api . ezaudio import EzAudio
import torch
import soundfile as sf

# load model
device = 'cuda' if torch . cuda . is_available () else 'cpu'
ezaudio = EzAudio ( model_name = 's3_xl' , device = device )

# text to audio genertation
prompt = "a dog barking in the distance"
sr , audio = ezaudio . generate_audio ( prompt )
sf . write ( f' { prompt } .wav' , audio , sr )

# audio inpainting
prompt = "A train passes by, blowing its horns"
original_audio = 'ref.wav'
sr , audio = ezaudio . editing_audio ( prompt , boundary = 2 , gt_file = original_audio ,
                                  mask_start = 1 , mask_length = 5 )
sf . write ( f' { prompt } _edit.wav' , audio , sr )

Faire

Libérez la démo Gradio avec des points de contrôle Ezaudio Space
Libérez la démo ControlNet avec des points de contrôle EzAudio ControlNet Space
Libérer le code d'inférence
Améliorer l'API et prendre en charge le téléchargement automatique des CKPT [WIP]
Publier des points de contrôle pour Stage1 et Stage2
Libérez le pipeline de formation et l'ensemble de données

Référence

Si vous trouvez le code utile pour vos recherches, veuillez envisager de citer:

 @article { hai2024ezaudio ,
  title = { EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer } ,
  author = { Hai, Jiarui and Xu, Yong and Zhang, Hao and Li, Chenxing and Wang, Helin and Elhilali, Mounya and Yu, Dong } ,
  journal = { arXiv preprint arXiv:2409.10819 } ,
  year = { 2024 }
}

Reconnaissance

Certains codes sont empruntés ou inspirés par: U-VIT, Pixel-Art, Huyuan-Dit et Audio stable.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-09
taille 2.75MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout