这是论文回顾的官方存储库:在ICASSP 2024接受口头演示的检索声音字幕。
[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]
注意:拍手检查点应与此存储库中定义的模型和代码一起使用。
我们提出了回顾(检索声音字幕),这是一种新颖有效的音频字幕系统,生成字幕以输入音频和其他类似于从数据存储中检索到的音频类似的字幕。此外,我们提出的方法可以转移到任何域,而无需任何其他微调。为了生成音频样本的字幕,我们利用音频文本模型拍手从可更换的数据存储中检索类似的字幕,然后将其用于构造提示。接下来,我们将此提示馈送到GPT-2解码器,并在拍手编码器和GPT-2之间引入跨注意层,以调节标题生成的音频。在两个基准数据集(Clotho和AudioCaps)上进行的实验表明,回顾可在内域设置中实现竞争性能,并在外域设置方面取得了重大改进。此外,由于其能力以无训练的方式利用大型文本基本数据存储,因此recap显示了在训练中从未见过的新型音频事件的独特功能,并在训练和构图音频中从未见过多个事件。为了促进该领域的研究,我们还发布了150,000多个弱标签的新标题,用于音频集,录音带和布洛。 
pip install -r requirements.txt 。如果安装了Conda,则可以运行以下内容: cd RECAP &&
conda create -n recap python=3.10 &&
conda activate recap &&
pip install -r requirements.txtbash recap.sh存储库同时具有培训和推理命令。我们建议一一做它们。运行python train.py并保存检查点后,请在python infer.py中更新路径,并推断您的训练有素的模型。 --model_path是指保存检查点的父文件夹, --checkpoint_path是指您要使用的检查点(训练代码保存多个检查点,每次完成预定义的步骤时,一个检查点)。
下载我们的拍手检查点后,您可以使用它们使用它们来评估它们。
我们的代码库受到SmallCap的启发。我们感谢作者开源的工作。
@INPROCEEDINGS { 10448030 ,
author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } ,
title = { Recap: Retrieval-Augmented Audio Captioning } ,
year = { 2024 } ,
volume = { } ,
number = { } ,
pages = { 1161-1165 } ,
keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
doi = { 10.1109/ICASSP48485.2024.10448030 } }