هذا هو المستودع الرسمي لملخص الورقة: التسمية التوضيحية الصوتية التي يتم التغلب عليها في الاسترجاع المقبولة في ICASSP 2024 لتقديمها عن طريق الفم.
[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]
ملاحظة : من المفترض استخدام نقاط التفتيش التصفيق مع النماذج والرمز المحدد في هذا المستودع.
نقدم RECAP (التسمية التوضيحية الصوتية التي تم التنقيب عن الاسترجاع) ، وهو نظام توضيحي صوتي جديد وفعال يقوم بإنشاء تسميات توضيحية مشروطة على صوت الإدخال وغيرها من التسميات التوضيحية المشابهة للصوت الذي تم استرداده من مخزن بيانات. بالإضافة إلى ذلك ، يمكن لنقل الطريقة المقترحة إلى أي مجال دون الحاجة إلى أي صقل إضافي. لإنشاء تعليق لعينة صوتية ، نقوم بالاستفادة من تصاعد نموذج نص الصوت لاسترداد التسميات التوضيحية المشابهة لها من مخزن بيانات قابل للاستبدال ، والذي يتم استخدامه بعد ذلك لبناء موجه. بعد ذلك ، نقوم بتغذية هذه المطالبة لفك تشفير GPT-2 ونقدم طبقات الالتحاق بين تشفير التصفيق و GPT-2 لتوليد الصوت لتوليد التسمية التوضيحية. تُظهر التجارب على مجموعتين من البيانات القياسية ، القماشية و Audiocaps ، أن Recap تحقق الأداء التنافسي في الإعدادات في المجال وتحسينات كبيرة في الإعدادات خارج المجال. بالإضافة إلى ذلك ، نظرًا لقدرتها على استغلال مخزن بيانات كبير للتصنيع النصية فقط بطريقة خالية من التدريب ، فإن Recap تعرض إمكانات فريدة من نوعها لتسمية الأحداث الصوتية الجديدة التي لم تشاهدها أثناء التدريب والتكوين مع أحداث متعددة. لتعزيز الأبحاث في هذا المجال ، نقوم أيضًا بإصدار 150،000+ تسميات توضيحية جديدة ذات علامات ضعيفة على Audioset و Audiocaps و Clotho. 
pip install -r requirements.txt . إذا قمت بتثبيت كوندا ، فيمكنك تشغيل ما يلي: cd RECAP &&
conda create -n recap python=3.10 &&
conda activate recap &&
pip install -r requirements.txtbash recap.sh المستودع لديه أوامر التدريب والاستدلال. نوصي بعملهم واحدا تلو الآخر. بمجرد تشغيل python train.py وحفظ نقطة تفتيش ، قم بتحديث المسارات في python infer.py واستنتاج طرازك المدرب. -يشير --model_path إلى المجلد الأصل حيث يتم حفظ نقاط التفتيش الخاصة بك ، ويشير- --checkpoint_path إلى نقطة التفتيش التي تريد استخدامها (يحفظ رمز التدريب نقاط تفتيش متعددة ، واحدة في كل مرة يتم فيها اكتمال عدد محدد من الخطوات).
بمجرد تنزيل نقاط تفتيش التصفيق الخاصة بنا ، يمكنك استخدامها للتقييم باستخدام التصفيق.
وقد استلهمنا قاعدة كودنا من SmallCap. نشكر المؤلفين على العمل المفتوح عملهم.
@INPROCEEDINGS { 10448030 ,
author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } ,
title = { Recap: Retrieval-Augmented Audio Captioning } ,
year = { 2024 } ,
volume = { } ,
number = { } ,
pages = { 1161-1165 } ,
keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
doi = { 10.1109/ICASSP48485.2024.10448030 } }