Ini adalah repositori resmi untuk rekap kertas: captioning audio-augmented retrieval yang diterima di ICASSP 2024 untuk presentasi oral.
[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]
Catatan : CLAP Checkpoints dimaksudkan untuk digunakan dengan model dan kode yang ditentukan dalam repositori ini.
Kami menyajikan rekap (pengambilan captioning audio-augmmented), sebuah sistem captioning audio yang baru dan efektif yang menghasilkan teks yang dikondisikan pada audio input dan teks lain yang mirip dengan audio yang diambil dari datastore. Selain itu, metode yang kami usulkan dapat ditransfer ke domain apa pun tanpa perlu melakukan fine-tuning tambahan. Untuk menghasilkan keterangan untuk sampel audio, kami memanfaatkan clap model audio-teks untuk mengambil teks yang mirip dengan itu dari datastore yang dapat diganti, yang kemudian digunakan untuk membuat prompt. Selanjutnya, kami memberi makan prompt ini ke dekoder GPT-2 dan memperkenalkan lapisan silang antara clap encoder dan GPT-2 untuk mengkondisikan audio untuk generasi teks. Eksperimen pada dua dataset benchmark, Clotho dan AudioCaps, menunjukkan bahwa rekap mencapai kinerja kompetitif dalam pengaturan dalam domain dan peningkatan signifikan dalam pengaturan di luar domain. Selain itu, karena kemampuannya untuk mengeksploitasi datastore khusus-teks-khusus dengan cara bebas pelatihan , rekap menunjukkan kemampuan unik dari acara audio novel yang belum pernah terlihat selama pelatihan dan audio komposisi dengan banyak acara. Untuk mempromosikan penelitian di ruang ini, kami juga merilis 150.000+ teks berlabel lemah baru untuk audioset, audioCaps, dan clotho. 
pip install -r requirements.txt . Jika Anda telah menginstal Conda, Anda dapat menjalankan yang berikut: cd RECAP &&
conda create -n recap python=3.10 &&
conda activate recap &&
pip install -r requirements.txtbash recap.sh Repositori memiliki perintah pelatihan dan inferensi. Kami merekomendasikan untuk melakukannya satu per satu. Setelah Anda menjalankan python train.py dan simpan pos pemeriksaan, perbarui jalur di python infer.py dan simpulkan model terlatih Anda. --model_path mengacu pada folder induk di mana pos pemeriksaan Anda disimpan, dan --checkpoint_path mengacu pada pos pemeriksaan yang ingin Anda gunakan (kode pelatihan menyimpan beberapa pos pemeriksaan, satu setiap kali jumlah langkah yang telah ditentukan sebelumnya diselesaikan).
Setelah Anda mengunduh pos pemeriksaan clap kami, Anda dapat menggunakannya untuk evaluasi menggunakan clap.
Basis kode kami telah terinspirasi oleh SmallCap. Kami berterima kasih kepada penulis untuk sumber terbuka pekerjaan mereka.
@INPROCEEDINGS { 10448030 ,
author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } ,
title = { Recap: Retrieval-Augmented Audio Captioning } ,
year = { 2024 } ,
volume = { } ,
number = { } ,
pages = { 1161-1165 } ,
keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
doi = { 10.1109/ICASSP48485.2024.10448030 } }