이것은 논문 요약의 공식 저장소입니다. 구두 프리젠 테이션을 위해 ICASSP 2024에서 수락 된 검색 오디오 캡션 .
[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]
참고 : Clap 체크 포인트는이 저장소에 정의 된 모델 및 코드와 함께 사용됩니다.
우리는 입력 오디오 및 데이터 저장소에서 검색된 오디오와 유사한 기타 캡션에 조절 된 캡션을 생성하는 새롭고 효과적인 오디오 캡션 시스템 인 Recap (검색식 오디오 캡션)을 제시합니다. 또한 제안 된 방법은 추가 미세 조정이 필요하지 않고 도메인으로 전송할 수 있습니다. 오디오 샘플 용 캡션을 생성하려면 오디오 텍스트 모델 클랩을 활용하여 교체 가능한 데이터 저장소에서 캡션과 유사한 캡션을 검색 한 다음 프롬프트를 구성하는 데 사용됩니다. 다음으로, 우리는이 프롬프트를 GPT-2 디코더에 공급하고 Clap Encoder와 GPT-2 사이에 교차-내 층을 도입하여 캡션 생성에 대한 오디오를 조정합니다. 두 개의 벤치 마크 데이터 세트, 의류 및 오디오 캡에 대한 실험은 요약이 도메인 설정에서 경쟁력있는 성능을 달성하고 도메인 외부 환경에서의 상당한 개선을 보여줍니다. 또한, 훈련이없는 방식으로 대규모 텍스트 캡션 전용 데이터 저장소를 악용 할 수있는 능력으로 인해 Reep은 여러 이벤트가있는 교육 및 구성 오디오에서 볼 수없는 새로운 오디오 이벤트를 캡션하는 독특한 기능을 보여줍니다. 이 공간에 대한 연구를 홍보하기 위해 오디오 세트, 오디오 캡 및 의류에 대한 150,000 개 이상의 새로운 약점 레이블이 붙은 캡션을 발표합니다. 
pip install -r requirements.txt . Conda를 설치 한 경우 다음을 실행할 수 있습니다. cd RECAP &&
conda create -n recap python=3.10 &&
conda activate recap &&
pip install -r requirements.txtbash recap.sh 저장소에는 교육 및 추론 명령이 모두 있습니다. 하나씩하는 것이 좋습니다. python train.py 실행하고 체크 포인트를 저장하면 python infer.py 의 경로를 업데이트하고 훈련 된 모델을 추론하십시오. --model_path 체크 포인트가 저장되는 상위 폴더를 말하고 --checkpoint_path 사용하려는 체크 포인트를 나타냅니다 (교육 코드는 미리 정의 된 단계가 완료 될 때마다 여러 체크 포인트를 저장합니다).
박수 검문소를 다운로드 한 후에는 Clap을 사용하여 평가에 사용할 수 있습니다.
코드베이스는 SmallCap에서 영감을 받았습니다. 우리는 작가들에게 그들의 작품을 오픈 소싱 해준 감사합니다.
@INPROCEEDINGS { 10448030 ,
author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } ,
title = { Recap: Retrieval-Augmented Audio Captioning } ,
year = { 2024 } ,
volume = { } ,
number = { } ,
pages = { 1161-1165 } ,
keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
doi = { 10.1109/ICASSP48485.2024.10448030 } }