RECAP Download - RECAP herunterladen

RECAP

Anderer Quellcode

1.0.0

Herunterladen

Zusammenfassung: Abruf-Augmented Audio Captioning

Dies ist das offizielle Repository für das Papierrekapitum: ARRAGUVAL-AUTIONED SUDIO-Bildunterschriften, die bei ICASSP 2024 zur mündlichen Präsentation akzeptiert werden.

[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]

HINWEIS : Clap -Checkpoints sollen mit den in diesem Repository definierten Modellen und Code verwendet werden.

Wir präsentieren die Recape (Abruf-Augmented Audio Captioning), ein neuartiges und effektives Audio-Bildunterschriftensystem, das Bildunterschriften generiert, die auf einem Eingangs-Audio und anderen Bildunterschriften verbunden sind, die dem von einem Datenspeicher abgerufenen Audio ähneln. Darüber hinaus kann unsere vorgeschlagene Methode auf eine beliebige Domäne übertragen, ohne dass zusätzliche Feinabstimmungen erforderlich sind. Um eine Bildunterschrift für eine Audio-Probe zu generieren, nutzen wir ein Audio-Text-Modellklatschen, um Bildunterschriften aus einem austauschbaren Datenspeicher abzurufen, mit dem dann eine Eingabeaufforderung erstellt wird. Als nächstes füttern wir diese Eingabeaufforderung an einen GPT-2-Decoder und führen Cross-Tent-Schichten zwischen dem ClaP-Encoder und GPT-2 ein, um den Audio für die Bildunterschriftenerzeugung zu konditionieren. Experimente zu zwei Benchmark-Datensätzen, Clotho und Audiocaps, zeigen, dass die Zusammenfassung die Wettbewerbsleistung in Domäneneinstellungen und signifikante Verbesserungen der Umgebungen außerhalb der Domänen erzielt. Aufgrund seiner Fähigkeit, einen großartigen Datenspeicher-Datensport in einer Training frei zu nutzen, zeigt die Zusammenfassung einzigartige Funktionen, neuartige Audio-Events, die während des Trainings und der Kompositionsprotokolle mit mehreren Veranstaltungen noch nie gesehen wurden. Um die Forschung in diesem Bereich zu fördern, veröffentlichen wir außerdem 150.000 neue schwach beschriftete Bildunterschriften für Audioset, Audiocaps und Clotho. Bild

Aufstellen

Sie müssen die Abhängigkeiten installieren: pip install -r requirements.txt . Wenn Sie Conda installiert haben, können Sie Folgendes ausführen:

 cd RECAP && 
conda create -n recap python=3.10 && 
conda activate recap && 
pip install -r requirements.txt

Führen Sie nach dem Aktualisieren der Pfade in recap.sh den folgenden Befehl aus:

bash recap.sh

Das Repository verfügt über Trainings- und Inferenzbefehle. Wir empfehlen ihnen, sie einzeln zu machen. Sobald Sie python train.py ausgeführt haben und einen Kontrollpunkt speichern, aktualisieren Sie die Pfade in python infer.py und schließen in Ihr ausgebildetes Modell. --model_path bezieht sich auf den übergeordneten Ordner, in dem Ihre Kontrollpunkte gespeichert sind, und --checkpoint_path bezieht sich auf den Kontrollpunkt, den Sie verwenden möchten (der Trainingscode speichert mehrere Kontrollpunkte, jedes Mal, wenn eine vordefinierte Anzahl von Schritten ausgeführt wird).

Verwenden von Clap -Checkpoints

Sobald Sie unsere ClaP -Checkpoints heruntergeladen haben, können Sie sie zur Bewertung mithilfe von ClAP verwenden.

Anerkennung

Unsere Codebasis wurde von SmallCap inspiriert. Wir danken den Autoren für die Open-Souring ihrer Arbeit.

Lizenz

Zitat

 @INPROCEEDINGS { 10448030 ,
  author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
  booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } , 
  title = { Recap: Retrieval-Augmented Audio Captioning } , 
  year = { 2024 } ,
  volume = { } ,
  number = { } ,
  pages = { 1161-1165 } ,
  keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
  doi = { 10.1109/ICASSP48485.2024.10448030 } }