Unduh RECAP - Unduh Kode Sumber RECAP

RECAP

Kode sumber lainnya

1.0.0

Unduh

Rekap: Pengambilan Audio Captioning

Ini adalah repositori resmi untuk rekap kertas: captioning audio-augmented retrieval yang diterima di ICASSP 2024 untuk presentasi oral.

[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]

Catatan : CLAP Checkpoints dimaksudkan untuk digunakan dengan model dan kode yang ditentukan dalam repositori ini.

Kami menyajikan rekap (pengambilan captioning audio-augmmented), sebuah sistem captioning audio yang baru dan efektif yang menghasilkan teks yang dikondisikan pada audio input dan teks lain yang mirip dengan audio yang diambil dari datastore. Selain itu, metode yang kami usulkan dapat ditransfer ke domain apa pun tanpa perlu melakukan fine-tuning tambahan. Untuk menghasilkan keterangan untuk sampel audio, kami memanfaatkan clap model audio-teks untuk mengambil teks yang mirip dengan itu dari datastore yang dapat diganti, yang kemudian digunakan untuk membuat prompt. Selanjutnya, kami memberi makan prompt ini ke dekoder GPT-2 dan memperkenalkan lapisan silang antara clap encoder dan GPT-2 untuk mengkondisikan audio untuk generasi teks. Eksperimen pada dua dataset benchmark, Clotho dan AudioCaps, menunjukkan bahwa rekap mencapai kinerja kompetitif dalam pengaturan dalam domain dan peningkatan signifikan dalam pengaturan di luar domain. Selain itu, karena kemampuannya untuk mengeksploitasi datastore khusus-teks-khusus dengan cara bebas pelatihan , rekap menunjukkan kemampuan unik dari acara audio novel yang belum pernah terlihat selama pelatihan dan audio komposisi dengan banyak acara. Untuk mempromosikan penelitian di ruang ini, kami juga merilis 150.000+ teks berlabel lemah baru untuk audioset, audioCaps, dan clotho. gambar

Pengaturan

Anda diharuskan menginstal dependensi: pip install -r requirements.txt . Jika Anda telah menginstal Conda, Anda dapat menjalankan yang berikut:

 cd RECAP && 
conda create -n recap python=3.10 && 
conda activate recap && 
pip install -r requirements.txt

Setelah memperbarui jalur di Recap.sh, jalankan perintah berikut:

bash recap.sh

Repositori memiliki perintah pelatihan dan inferensi. Kami merekomendasikan untuk melakukannya satu per satu. Setelah Anda menjalankan python train.py dan simpan pos pemeriksaan, perbarui jalur di python infer.py dan simpulkan model terlatih Anda. --model_path mengacu pada folder induk di mana pos pemeriksaan Anda disimpan, dan --checkpoint_path mengacu pada pos pemeriksaan yang ingin Anda gunakan (kode pelatihan menyimpan beberapa pos pemeriksaan, satu setiap kali jumlah langkah yang telah ditentukan sebelumnya diselesaikan).

Menggunakan pos pemeriksaan clap

Setelah Anda mengunduh pos pemeriksaan clap kami, Anda dapat menggunakannya untuk evaluasi menggunakan clap.

Ucapan Terima Kasih

Basis kode kami telah terinspirasi oleh SmallCap. Kami berterima kasih kepada penulis untuk sumber terbuka pekerjaan mereka.

Lisensi

Kutipan

 @INPROCEEDINGS { 10448030 ,
  author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
  booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } , 
  title = { Recap: Retrieval-Augmented Audio Captioning } , 
  year = { 2024 } ,
  volume = { } ,
  number = { } ,
  pages = { 1161-1165 } ,
  keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
  doi = { 10.1109/ICASSP48485.2024.10448030 } }

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-07
ukuran 15.59MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua