Это официальный репозиторий для бумажного резюме: подписание аудиозаписи, принятое в ICASSP 2024 для устной презентации.
[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]
Примечание . Контрольные точки CLAP предназначены для использования с моделями и кодом, определенным в этом репозитории.
Мы представляем резюме (подписание аудиозаписи, новая и эффективная система подписания звука, которая генерирует подписи, обусловленные входным звуком, и другие подписи, аналогичные аудио, полученным из данных. Кроме того, предлагаемый нами метод может перенести в любой домен без необходимости никакой дополнительной точной настройки. Чтобы сгенерировать заголовок для образец аудио, мы используем аудио-текстовый CLAP для извлечения подписей, аналогичных им, из заменяемого хранилища данных, которое затем используется для построения подсказки. Далее мы кормим это подсказку декодеру GPT-2 и вводим слои перекрестного привлечения между энкодером CLAP и GPT-2, чтобы подготовить звук для генерации подписи. Эксперименты по двум наборам данных, трюм и аудиокапам, показывают, что Recap достигает конкурентной работы в настройках в области доменов и значительных улучшений в условиях вне домена. Кроме того, благодаря своей способности использовать большие текстовые капитаны только для данных, без тренировок , RECAP показывает уникальные возможности подписания новых аудио событий, которые никогда не видели во время обучения и композиционных аудио с несколькими событиями. Чтобы продвигать исследования в этом пространстве, мы также выпускаем более 150 000 новых слабо маркированных подписей для аудиоса, аудиокапс и Bloto. 
pip install -r requirements.txt . Если у вас установлена Conda, вы можете запустить следующее: cd RECAP &&
conda create -n recap python=3.10 &&
conda activate recap &&
pip install -r requirements.txtbash recap.sh Репозиторий имеет как обучение, так и команды вывода. Мы рекомендуем сделать их один за другим. Как только вы запустите python train.py и сохраните контрольную точку, обновите пути в python infer.py и выводите свою обученную модель. --model_path относится к родительской папке, где сохраняются ваши контрольные точки, и --checkpoint_path относится к контрольной точке, которую вы хотите использовать (учебный код сохраняет несколько контрольных точек, один каждый раз, когда выполняется предопределенное количество шагов).
После того, как вы загрузили наши контрольно -пропускные пункты Clap, вы можете использовать их для оценки, используя CLAP.
Наша кодовая база была вдохновлена Smallcap. Мы благодарим авторов за открытый источник их работы.
@INPROCEEDINGS { 10448030 ,
author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } ,
title = { Recap: Retrieval-Augmented Audio Captioning } ,
year = { 2024 } ,
volume = { } ,
number = { } ,
pages = { 1161-1165 } ,
keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
doi = { 10.1109/ICASSP48485.2024.10448030 } }