Descarga EzAudio - Descargar el código fuente de EzAudio

EzAudio

Otro código fuente

1.0.0

Descargar

Ezaudio: Mejora de la generación de texto a audio con transformador de difusión eficiente

? Ezaudio es un modelo de generación de texto a audio basado en difusión. Diseñado para aplicaciones de audio del mundo real, Ezaudio reúne la síntesis de audio de alta calidad con demandas computacionales más bajas.

? Juega con Ezaudio para la generación de texto a audio, edición e interna

? Ezaudio-Controlnet está disponible: espacio ezaudio-Controlnet

Instalación

Clon el repositorio:

 git clone [email protected]:haidog-yaqub/EzAudio.git

Instale las dependencias:

 cd EzAudio
pip install -r requirements.txt

Descargar checkponts (opcional): https://huggingface.co/opensound/ezaudio

Uso

Puede usar el modelo con el siguiente código:

 from api . ezaudio import EzAudio
import torch
import soundfile as sf

# load model
device = 'cuda' if torch . cuda . is_available () else 'cpu'
ezaudio = EzAudio ( model_name = 's3_xl' , device = device )

# text to audio genertation
prompt = "a dog barking in the distance"
sr , audio = ezaudio . generate_audio ( prompt )
sf . write ( f' { prompt } .wav' , audio , sr )

# audio inpainting
prompt = "A train passes by, blowing its horns"
original_audio = 'ref.wav'
sr , audio = ezaudio . editing_audio ( prompt , boundary = 2 , gt_file = original_audio ,
                                  mask_start = 1 , mask_length = 5 )
sf . write ( f' { prompt } _edit.wav' , audio , sr )

Hacer

Libere la demostración de Gradio junto con los puntos de control de Ezaudio Space
Libere la demostración de Controlnet junto con los puntos de control EASAUDIO CONTROLNET Space
Liberar el código de inferencia
Mejore la API y admite la descarga automática de CKPTS [WIP]
Puntos de control de lanzamiento para Stage1 y Stage2
Liberación de tuberías de capacitación y conjunto de datos

Referencia

Si encuentra el código útil para su investigación, considere citar:

 @article { hai2024ezaudio ,
  title = { EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer } ,
  author = { Hai, Jiarui and Xu, Yong and Zhang, Hao and Li, Chenxing and Wang, Helin and Elhilali, Mounya and Yu, Dong } ,
  journal = { arXiv preprint arXiv:2409.10819 } ,
  year = { 2024 }
}

Reconocimiento

Algunos códigos se toman prestados o inspirados en: U-VIT, Pixel-Art, Huyuan-Dit y Audio estable.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-09
tamaño 2.75MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo