นี่คือที่เก็บอย่างเป็นทางการสำหรับ การสรุปกระดาษ: คำบรรยายภาพการดึงเสียง ที่ได้รับการยอมรับจาก ICASSP 2024 สำหรับการนำเสนอด้วยวาจา
[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]
หมายเหตุ : จุดตรวจสอบปรบมือมีไว้เพื่อใช้กับโมเดลและรหัสที่กำหนดไว้ในที่เก็บนี้
เรานำเสนอการสรุป (คำบรรยายภาพการดึงเสียง) ซึ่งเป็นระบบคำบรรยายภาพเสียงนวนิยายและมีประสิทธิภาพที่สร้างคำอธิบายภาพที่ปรับอากาศบนเสียงอินพุตและคำบรรยายอื่น ๆ ที่คล้ายกับเสียงที่ดึงมาจากที่เก็บข้อมูล นอกจากนี้วิธีการที่เราเสนอสามารถถ่ายโอนไปยังโดเมนใด ๆ โดยไม่จำเป็นต้องปรับแต่งเพิ่มเติมใด ๆ ในการสร้างคำบรรยายภาพสำหรับตัวอย่างเสียงเราใช้ประโยชน์จากการปรบมือแบบข้อความเสียงเพื่อดึงคำอธิบายภาพคล้ายกับที่เก็บข้อมูลที่เปลี่ยนได้ซึ่งใช้เพื่อสร้างพรอมต์ ต่อไปเราจะป้อนพรอมต์นี้ไปยังตัวถอดรหัส GPT-2 และแนะนำเลเยอร์ข้ามความสนใจระหว่างตัวเข้ารหัส Clap และ GPT-2 เพื่อปรับสภาพเสียงสำหรับการสร้างคำอธิบายภาพ การทดลองเกี่ยวกับชุดข้อมูลมาตรฐานสองชุดคือผ้าและ Audiocaps แสดงให้เห็นว่าการสรุปผลการแข่งขันได้รับประสิทธิภาพการแข่งขันในการตั้งค่าในโดเมนและการปรับปรุงที่สำคัญในการตั้งค่านอกโดเมน นอกจากนี้เนื่องจากความสามารถในการใช้ประโยชน์จากที่เก็บข้อมูลข้อความขนาดใหญ่เท่านั้นในรูปแบบ ที่ปราศจากการฝึกอบรม การสรุปแสดงความสามารถที่เป็นเอกลักษณ์ของการบรรยายภาพเหตุการณ์เสียงใหม่ที่ไม่เคยเห็นในระหว่างการฝึกอบรมและเสียงประกอบที่มีหลายเหตุการณ์ เพื่อส่งเสริมการวิจัยในพื้นที่นี้เรายังเปิดตัวคำอธิบายภาพที่มีป้ายกำกับที่อ่อนแอกว่า 150,000+ รายการสำหรับ Audioset, Audiocaps และ Clotho 
pip install -r requirements.txt หากคุณติดตั้ง conda คุณสามารถเรียกใช้สิ่งต่อไปนี้: cd RECAP &&
conda create -n recap python=3.10 &&
conda activate recap &&
pip install -r requirements.txtbash recap.sh ที่เก็บมีทั้งคำสั่งการฝึกอบรมและการอนุมาน เราขอแนะนำให้ทำทีละคน เมื่อคุณเรียกใช้ python train.py และบันทึกจุดตรวจสอบแล้วให้อัปเดตเส้นทางใน python infer.py และอนุมานรูปแบบที่ผ่านการฝึกอบรมของคุณ --model_path หมายถึงโฟลเดอร์หลักที่จุดตรวจของคุณถูกบันทึกไว้และ --checkpoint_path หมายถึงจุดตรวจสอบที่คุณต้องการใช้ (รหัสการฝึกอบรมบันทึกจุดตรวจหลายจุดหนึ่งครั้งทุกครั้งที่กำหนดจำนวนขั้นตอนที่กำหนดไว้ล่วงหน้า)
เมื่อคุณดาวน์โหลดจุดตรวจตบมือของเราแล้วคุณสามารถใช้เพื่อการประเมินผลโดยใช้ Clap
codebase ของเราได้รับแรงบันดาลใจจาก SmallCap เราขอขอบคุณผู้เขียนที่เปิดงานของพวกเขา
@INPROCEEDINGS { 10448030 ,
author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } ,
title = { Recap: Retrieval-Augmented Audio Captioning } ,
year = { 2024 } ,
volume = { } ,
number = { } ,
pages = { 1161-1165 } ,
keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
doi = { 10.1109/ICASSP48485.2024.10448030 } }