這是論文回顧的官方存儲庫:在ICASSP 2024接受口頭演示的檢索聲音字幕。
[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]
注意:拍手檢查點應與此存儲庫中定義的模型和代碼一起使用。
我們提出了回顧(檢索聲音字幕),這是一種新穎有效的音頻字幕系統,生成字幕以輸入音頻和其他類似於從數據存儲中檢索到的音頻類似的字幕。此外,我們提出的方法可以轉移到任何域,而無需任何其他微調。為了生成音頻樣本的字幕,我們利用音頻文本模型拍手從可更換的數據存儲中檢索類似的字幕,然後將其用於構造提示。接下來,我們將此提示饋送到GPT-2解碼器,並在拍手編碼器和GPT-2之間引入跨注意層,以調節標題生成的音頻。在兩個基準數據集(Clotho和AudioCaps)上進行的實驗表明,回顧可在內域設置中實現競爭性能,並在外域設置方面取得了重大改進。此外,由於其能力以無訓練的方式利用大型文本基本數據存儲,因此recap顯示了在訓練中從未見過的新型音頻事件的獨特功能,並在訓練和構圖音頻中從未見過多個事件。為了促進該領域的研究,我們還發布了150,000多個弱標籤的新標題,用於音頻集,錄音帶和布洛。 
pip install -r requirements.txt 。如果安裝了Conda,則可以運行以下內容: cd RECAP &&
conda create -n recap python=3.10 &&
conda activate recap &&
pip install -r requirements.txtbash recap.sh存儲庫同時具有培訓和推理命令。我們建議一一做它們。運行python train.py並保存檢查點後,請在python infer.py中更新路徑,並推斷您的訓練有素的模型。 --model_path是指保存檢查點的父文件夾, --checkpoint_path是指您要使用的檢查點(訓練代碼保存多個檢查點,每次完成預定義的步驟時,一個檢查點)。
下載我們的拍手檢查點後,您可以使用它們使用它們來評估它們。
我們的代碼庫受到SmallCap的啟發。我們感謝作者開源的工作。
@INPROCEEDINGS { 10448030 ,
author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } ,
title = { Recap: Retrieval-Augmented Audio Captioning } ,
year = { 2024 } ,
volume = { } ,
number = { } ,
pages = { 1161-1165 } ,
keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
doi = { 10.1109/ICASSP48485.2024.10448030 } }