Descarga RECAP - Descarga del código fuente RECAP

RECAP

Otro código fuente

1.0.0

Descargar

Resumen: subtítulos de audio de recuperación de recuperación

Este es el repositorio oficial de la resumen del documento: subtítulos de audio de recuperación accesorios aceptados en ICASSP 2024 para la presentación oral.

[ Paper ] [ CLAP Checkpoints ] [ Weakly labeled captions for AudioSet, AudioCaps, and Clotho ]

Nota : Los puntos de control de Clap están destinados a usarse con los modelos y el código definido en este repositorio.

Presentamos recapitulación (subtitulación de audio de recuperación de recuperación), un sistema de subtítulos de audio novedoso y efectivo que genera subtítulos condicionados en un audio de entrada y otros subtítulos similares al audio recuperado de un almacén de datos. Además, nuestro método propuesto puede transferirse a cualquier dominio sin la necesidad de ningún ajuste adicional adicional. Para generar un título para una muestra de audio, aprovechamos un aplausos del modelo de texto de audio para recuperar los subtítulos de manera similar a él desde un almacén de datos reemplazable, que luego se utilizan para construir un aviso. A continuación, alimentamos este indicador a un decodificador GPT-2 e introducimos capas de atención cruzada entre el codificador Clap y GPT-2 para acondicionar el audio para la generación de subtítulos. Los experimentos en dos conjuntos de datos de referencia, Clotho y Audiocaps muestran que la recapitulación logra un rendimiento competitivo en la configuración del dominio y mejoras significativas en la configuración fuera del dominio. Además, debido a su capacidad de explotar un gran almacén de datos de texto de texto solo de manera libre de capacitación , el recapitulación muestra capacidades únicas de subtitular eventos de audio novedosos nunca vistos durante la capacitación y audios compositivos con múltiples eventos. Para promover la investigación en este espacio, también lanzamos más de 150,000 nuevos subtítulos débilmente etiquetados para Audioset, Audiocaps y Clotho. imagen

Configuración

Debe instalar las dependencias: pip install -r requirements.txt . Si tiene Conda instalado, puede ejecutar lo siguiente:

 cd RECAP && 
conda create -n recap python=3.10 && 
conda activate recap && 
pip install -r requirements.txt

Después de actualizar las rutas en recap.sh, ejecute el siguiente comando:

bash recap.sh

El repositorio tiene comandos de capacitación e inferencia. Recomendamos hacerlos uno por uno. Una vez que ejecute python train.py y guarde un punto de control, actualice las rutas en python infer.py e infiera su modelo entrenado. --model_path se refiere a la carpeta principal donde se guardan sus puntos de control, y --checkpoint_path se refiere al punto de control que desea usar (el código de entrenamiento guarda múltiples puntos de control, uno cada vez que se completa un número predefinido de pasos).

Usando puntos de control de aplausos

Una vez que haya descargado nuestros puntos de control Clap, puede usarlos para evaluar usando Clap.

Expresiones de gratitud

Nuestra base de código se ha inspirado en SmallCap. Agradecemos a los autores por obtener su trabajo.

Licencia

Citación

 @INPROCEEDINGS { 10448030 ,
  author = { Ghosh, Sreyan and Kumar, Sonal and Reddy Evuru, Chandra Kiran and Duraiswami, Ramani and Manocha, Dinesh } ,
  booktitle = { ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) } , 
  title = { Recap: Retrieval-Augmented Audio Captioning } , 
  year = { 2024 } ,
  volume = { } ,
  number = { } ,
  pages = { 1161-1165 } ,
  keywords = { Training;Signal processing;Benchmark testing;Acoustics;Decoding;Feeds;Speech processing;Automated audio captioning;multimodal learning;retrieval-augmented generation } ,
  doi = { 10.1109/ICASSP48485.2024.10448030 } }

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-07
tamaño 15.59MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo