EzAudioダウンロードEzAudioソースコードのダウンロード

EzAudio

その他のソースコード

1.0.0

ダウンロード

Ezaudio：効率的な拡散トランスを使用して、テキストからオーディオの生成を強化します

？ Ezaudioは、拡散ベースのテキストからオーディオ生成モデルです。実際のオーディオアプリケーション用に設計されたEzaudioは、計算需要が低いため、高品質のオーディオ合成を結び付けます。

？テキストからオーディオへの生成、編集、および入力のためにEzaudioで遊ぶ：Ezaudio Space

？ ezaudio-controlnetが利用可能です：ezaudio-controlnetスペース

インストール

リポジトリをクローンします：

 git clone [email protected]:haidog-yaqub/EzAudio.git

依存関係をインストールします。

 cd EzAudio
pip install -r requirements.txt

CheckPonts（オプション）：https：//huggingface.co/opensound/ezaudioをダウンロードします

使用法

次のコードでモデルを使用できます。

 from api . ezaudio import EzAudio
import torch
import soundfile as sf

# load model
device = 'cuda' if torch . cuda . is_available () else 'cpu'
ezaudio = EzAudio ( model_name = 's3_xl' , device = device )

# text to audio genertation
prompt = "a dog barking in the distance"
sr , audio = ezaudio . generate_audio ( prompt )
sf . write ( f' { prompt } .wav' , audio , sr )

# audio inpainting
prompt = "A train passes by, blowing its horns"
original_audio = 'ref.wav'
sr , audio = ezaudio . editing_audio ( prompt , boundary = 2 , gt_file = original_audio ,
                                  mask_start = 1 , mask_length = 5 )
sf . write ( f' { prompt } _edit.wav' , audio , sr )

トト

チェックポイントezaudioスペースとともにグレードデモをリリースします
コントロールネットのデモとチェックポイントezaudio controlnetスペースをリリースします
推論コードをリリースします
APIを改善し、自動CKPTSダウンロード[WIP]をサポートする
ステージ1およびステージ2のチェックポイントをリリースします
トレーニングパイプラインとデータセットをリリースします

参照

コードが研究に役立つと思う場合は、引用を検討してください。

 @article { hai2024ezaudio ,
  title = { EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer } ,
  author = { Hai, Jiarui and Xu, Yong and Zhang, Hao and Li, Chenxing and Wang, Helin and Elhilali, Mounya and Yu, Dong } ,
  journal = { arXiv preprint arXiv:2409.10819 } ,
  year = { 2024 }
}