Download qa mdt - Unduh Kode Sumber qa mdt

qa mdt

Kode sumber lainnya

1.0.0

Unduh

(OpenMusic) Generasi Teks-ke-Musik Open-Source yang Luar Biasa: QA-MDT

Kami telah berhasil memperluas model kami ke generasi musik yang tak terbatas dengan cara zero-shot oleh Yusheng Dai, dan kami akan segera memperbaruinya.

Implementasi Pytorch resmi (coba demo kami terlebih dahulu!)

(Mencoba mendukung generasi audio-to-audio ada dalam daftar TODO saya, sehingga Anda dapat memasukkan trek musik dan LDM akan membantu menggabungkannya ~)

Terima kasih atas iklan di tes lokal di YouTube! - oleh @Fahd mirza

Implementasi Diffusers? - Oleh @jadechoghari - memeluk wajah ?.

Pengaturan sangat mudah! Ikuti saja instruksi di bawah ini:

Coba modelnya di sini:

Jalankan secara lokal di gradio

 pip install -r gradio/requirements.txt
python gradio/gradio_app.py

Kita harus mengakui bahwa arsitektur UNET masih memiliki beberapa keunggulan probabilitas dalam musikalitas subyektif, tetapi ini tidak diukur dalam metrik. Dan, kami memang memiliki beberapa model yang lebih baik pada metrik, atau dilatih lebih lama, tetapi kami mengamati bahwa model umumnya menjadi lebih sedikit musikalitas setelah pelatihan terlalu lama, jadi kami memilih model yang moderat pada metrik sebagai sampel open source sampel terbuka . Jika Anda membutuhkan lebih banyak model (pengejaran metrik ekstrem atau pengejaran musik yang ekstrem, silakan hubungi saya)

Tanpa desain mewah, hanya suntikan berkualitas, dan nikmati musik indah Anda

Di bawah pos pemeriksaan utama model QA-MDT kami dari https://huggingface.co/lichang0928/qa-mdt

Untuk pengguna Cina, Anda juga dapat mengunduh pos pemeriksaan melalui tautan berikut:

https://pan.baidu.com/s/1n0xqvxtf_x9i7fwb07lpqw?pwd=9nkt

Ringkasan

Repositori ini menyediakan implementasi QA-MDT, mengintegrasikan model canggih untuk generasi musik. Kode dan metode didasarkan pada repositori berikut:

Audioldm
Pixart-alpha
Mdt
Audiomae
Open-Sora

Persyaratan

Python 3.10
qamdt.yaml

Sebelum pelatihan, Anda perlu mengunduh ckpts tambahan yang diperlukan di ./audioldm_train/config/mos_as_token/qa_mdt.yaml dan offset_pretred_checkpoints.json

Dicatat bahwa: semua pos pemeriksaan di atas dapat diunduh dari:

Flan-T5-Large

clap_music

Roberta-Base

yang lain

Pelatihan

sh run.sh

Bagaimana mempersiapkan pelatihan atau penyesuaian

Model kami sudah diisi dengan baik. Jika Anda ingin melatih kembali atau menyempurnakannya, Anda dapat memilih untuk menggunakan atau tidak menggunakan strategi QA kami. Kami menawarkan beberapa strategi pelatihan:

MDT WO Token Kualitas : PixArt_MDT
Mdt dengan token berkualitas : Pixart_MDT_MOS_AS_TOKEN
DIT : PixArt_Slow
U-net w / wo prefix kualitas : you can just follow AudioLDM and make your dataset as illustrated in our paper (method part)

Untuk melatih atau menyempurnakan, cukup ubah "Your_Class" di audioldm_train.modules.diffusionmodules.PixArt.Your_Class di file konfigurasi kami.

Anda juga dapat mencoba memodifikasi ukuran tambalan, ukuran tumpang tindih untuk pertukaran sumber daya terbaik dan komputasi Anda (lihat Lampiran kami di Kertas Arxiv)

Cara mempersiapkan dataset Anda untuk pelatihan atau penyesuaian

Kami menggunakan format dataset LMDB untuk pelatihan. Anda dapat memodifikasi Dataloader sesuai dengan kebutuhan pelatihan Anda sendiri.

Jika Anda ingin mengikuti proses kami (meskipun kami tidak merekomendasikannya, karena bisa rumit), inilah cara Anda dapat membuat dataset mainan LMDB:

Buat file proto

Pertama, buat file bernama datum_all.proto dengan konten berikut:

 syntax = "proto2" ;

message Datum_all {
  repeated float wav_file = 1 ;
  required string caption_original = 2 ;
  repeated string caption_generated = 3 ;
  required float mos = 4 ;
}

Menghasilkan binding python

(Versi protoc Anda harus 3.4, dan Anda dapat mengunduhnya di sini)

Jalankan perintah berikut di terminal Anda untuk menghasilkan binding python:

protoc --python_out=./ datum_all.proto

Ini akan membuat file yang disebut datum_all_pb2.py . Kami juga telah menyediakan file ini di folder Dataset kami, dan Anda dapat memeriksa apakah itu cocok dengan yang Anda hasilkan. Jangan pernah mencoba memodifikasi file ini, karena hal itu dapat menyebabkan kesalahan.

Kode untuk menyiapkan dataset mainan LMDB

Script Python berikut menunjukkan cara menyiapkan dataset Anda dalam format LMDB:

 import torch
import os
import lmdb
import time
import numpy as np
import librosa
import os
import soundfile as sf
import io

from datum_all_pb2 import Datum_all as Datum_out

device = 'cpu'
count = 0
total_hours = 0

# Define paths
lmdb_file = '/disk1/changli/toy_lmdb'
toy_path = '/disk1/changli/audioset'
lmdb_key = os . path . join ( lmdb_file , 'data_key.key' )

# Open LMDB environment
env = lmdb . open ( lmdb_file , map_size = 1e12 )
txn = env . begin ( write = True )
final_keys = []

def _resample_load_librosa ( path : str , sample_rate : int , downmix_to_mono : bool , ** kwargs ):
    """Load and resample audio using librosa."""
    src , sr = librosa . load ( path , sr = sample_rate , mono = downmix_to_mono , ** kwargs )
    return src

start_time = time . time ()

# Walk through the dataset directory
for root , _ , files in os . walk ( toy_path ):
    for file in files :
        audio_path = os . path . join ( root , file )
        key_tmp = audio_path . replace ( '/' , '_' )
        audio = _resample_load_librosa ( audio_path , 16000 , True )
        
        # Create a new Datum object
        datum = Datum_out ()
        datum . wav_file . extend ( audio )
        datum . caption_original = 'audio' . encode ()
        datum . caption_generated . append ( 'audio' . encode ())
        datum . mos = - 1

        # Write to LMDB
        txn . put ( key_tmp . encode (), datum . SerializeToString ())
        final_keys . append ( key_tmp )

        count += 1
        total_hours += 1.00 / 60 / 10

        if count % 1 == 0 :
            elapsed_time = time . time () - start_time
            print ( f' { count } files written, time: { elapsed_time :.2f } s' )
            txn . commit ()
            txn = env . begin ( write = True )

# Finalize transaction
try :
    total_time = time . time () - start_time
    print ( f'Packing completed: { count } files written, total_hours: { total_hours :.2f } , time: { total_time :.2f } s' )
    txn . commit ()
except :
    pass

env . close ()

# Save the LMDB keys
with open ( lmdb_key , 'w' ) as f :
    for key in final_keys :
        f . write ( key + ' n ' )

Jika tidak, Anda bisa menggunakan Dataloader di AudiOldm

Masukkan jalur LMDB yang Anda hasilkan dan jalur file kunci yang sesuai ke dalam konfigurasi
Mulailah pelatihan Anda

Kesimpulan

sh infer/infer.sh
# you may change the infer.sh for witch quality level you want to infer
# defaultly, it should be set to 5 which represent highest quality
# Additionally, it may be useful to change the prompt with text prefix "high quality", 
# which match the training process and may further improve performance

Kontak

Ini adalah pertama kalinya saya open source proyek seperti itu, kode, organisasi, open source mungkin tidak sempurna. Jika Anda memiliki pertanyaan tentang model, kode, dan set data kami, jangan ragu untuk menghubungi saya melalui tautan di bawah ini, dan saya menantikan saran apa pun:

Email : [email protected]
WeChat : 19524292801

Saya akan mencoba yang terbaik untuk menyediakan lebih banyak proyek tentang musik dan audio di masa depan ~

Kutipan

Jika Anda menemukan proyek ini bermanfaat, silakan pertimbangkan mengutip:

 @article{li2024quality,
  title={Quality-aware Masked Diffusion Transformer for Enhanced Music Generation},
  author={Li, Chang and Wang, Ruoyu and Liu, Lijuan and Du, Jun and Sun, Yixuan and Guo, Zilu and Zhang, Zhenrong and Jiang, Yuan},
  journal={arXiv preprint arXiv:2405.15863},
  year={2024}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-25
ukuran 2.12MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Perangkat lunak pendukung Aizhi·QA IoT

2024-08-15
Aplikasi qa manajemen cerdas di tempat

2023-08-07

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua