Descarga VSUA Captioning - VSUA Captioning el código fuente Descargar Descargar

VSUA Captioning

Otro código fuente

1.0.0

Descargar

Alineando palabras lingüísticas y unidades semánticas visuales para subtítulos

Introducción

El modelo VSUA representa imágenes como gráficos estructurados donde los nodos son las llamadas unidades semánticas visuales (VSU): unidades de objeto, atributo y relación. Nuestro modelo VSUA utiliza la naturaleza de alineación entre las palabras de subtítulos y las VSU.

Imagen de introducción

Citación

Si encuentra este código útil en su investigación, por favor cita

 @inproceedings{guo2019vsua,
 title={Aligning Linguistic Words and Visual Semantic Units for Image Captioning},
 author={Longteng Guo, Jing Liu, Jinhui Tang, Jiangwei Li, Wei Luo, and Hanqing Lu},
 booktitle={ACM MM},
 year={2019}}

Requisitos

GPU habilitada para CUDA
Python 2.7 y Pytorch> = 0.4
Sidra (ya se ha agregado como submódulo)
Opcionalmente:
- COMACCIÓN (ya se ha agregado como submódulo): si desea evaluar las puntuaciones de Bleu/Meteor/Cider
- TensorBoardX: si desea visualizar los historiales de pérdida (necesita instalar TensorFlow).

Para instalar todos los submódulos: git clone --recursive https://github.com/ltguo19/VSUA-Captioning.git

Preparar datos

Para obtener más detalles y otro conjunto de datos, ver ruotianluo/autocrítico.pytorch

1. Descargue los subtítulos y preprocesados

Descargue los subtítulos de Coco preprocesados desde el enlace de la página de inicio de Karpathy. Extraiga dataset_coco.json del archivo zip y cópielo en data/ . Este archivo proporciona subtítulos preprocesados y también divisiones estándar de prueba de entrenamiento de tren.

Entonces haz:

$ python scripts/prepro_labels.py --input_json data/dataset_coco.json --output_json data/cocotalk.json --output_h5 data/cocotalk

prepro_labels.py asignará todas las palabras que ocurren <= 5 veces a un token UNK especial, y creará un vocabulario para todas las palabras restantes. La información de la imagen y el vocabulario se visten en data/cocotalk.json y los datos de subtítulos discretizados se arrojan a data/cocotalk_label.h5 .

2. Descargue las funciones de abajo hacia arriba

Utilizamos las características de imagen de abajo hacia arriba preextracidas. Descargue la función preextracida del enlace (utilizamos la adaptativa en nuestros experimentos). Por ejemplo:

mkdir data/bu_data ; cd data/bu_data
wget https://storage.googleapis.com/bottom-up-attention/trainval.zip
unzip trainval.zip

Entonces:

python script/make_bu_data.py --output_dir data/cocobu

Esto creará data/cocobu_fc , data/cocobu_att y data/cocobu_box .

3. Descargar datos de gráficos de escena de imagen

Utilizamos los datos del gráfico de la escena de Yangxuntu/Sgae. Descargue los archivos coco_img_sg.zip y coco_pred_sg_rela.npy desde este enlace y póngalos en los data de la carpeta y luego descifrarlos. coco_img_sg.zip contiene datos de gráficos de escena para cada imagen, incluidas las etiquetas de los objetos y las etiquetas de los atributos para cada cuadro en los datos adaptativos de abajo hacia arriba y las etiquetas de la relación semántica entre los cuadros. coco_pred_sg_rela.npy contiene los vocabularios para las etiquetas de objeto, atributo y relación.

4. Datos de relación de geometría de extracción

Descargue los archivos vsua_box_info.pkl de este enlace, que contiene el tamaño de cada cuadro y el ancho/altura de cada imagen. Entonces haz:

python scripts/cal_geometry_feats.py
python scripts/build_geometry_graph.py

Para extraer las características de la relación de geometría y construir el gráfico de geometría. Esto creará data/geometry_feats-undirected.pkl y data/geometry-iou0.2-dist0.5-undirected .

En general, la carpeta de datos debe contener estos archivos/carpetas:

cocotalk.json         	# additional information about images and vocab
cocotalk_label.h5       # captions
coco-train-idxs.p       # cached token file for cider
cocobu_att              # bottom-up feature
cocobu_fc               # bottom-up average feature
coco_img_sg             # scene graph data
coco_pred_sg_rela.npy   # scene graph vocabularies
vsua_box_info.pkl       # boxes and width and height of images
geometry-iou0.2-dist0.5-undirected  # geometry graph data

Capacitación

1. Pérdida de entropía cruzada

python train.py --gpus 0 --id experiment-xe --geometry_relation True

El script del tren arrojará puntos de control en la carpeta especificada por --checkpoint_root y --id .

2. Aprendizaje de refuerzo con recompensa de sidra

python train.py --gpus 0 --id experiment-rl --geometry_relation True --learning_rate 5e-5 --resume_from experiment-xe --resume_from_best True --self_critical_after 0 --max_epochs 50

--gpu especifica la GPU utilizada para ejecutar el modelo. --id es el nombre de este experimento y toda la información y los puntos de control se arrojarán a la carpeta checkpoint_root/id .
--geometry_relation Especifica el tipo de relación a usar. Verdadero: use la relación de geometría, Falso: use la relación semántica.
Para reanudar la capacitación, puede especificar --resume_from opción para ser la identificación del experimento de la que desea reanudar y usar --resume_from_best para elegir si se reanudará desde el punto de control de mejor rendimiento o el último punto de control.
Si tiene TensorFlow, los historiales de pérdida se arrojan automáticamente a checkpoint_root/id , y se pueden visualizar utilizando TensorBoard por sh script/tensorboard.sh .
Si desea evaluar las puntuaciones de Bleu/Meteor/Cider durante el entrenamiento, además de la pérdida de entropía de validación, use --language_eval 1 opción, pero no olvide descargar el código de COCO-Caption en el directorio coco-caption .
Para obtener más opciones, consulte opts.py Y ver autocrítico.pytorch para obtener más guía de entrenamiento.

Reconocimiento

Este código se modifica de la brillante imagen de Ruotian Luo Repo Ruotianluo/AutoCritical.pytorch. Utilizamos las características visuales proporcionadas por PeteAnderson80/Atención ascendente de abajo hacia arriba, y los datos del gráfico de la escena proporcionados por Yangxuntu/Sgae. ¡Gracias por sus obras! Si encuentra útil este código, considere citar sus documentos correspondientes y nuestro artículo.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-18
tamaño 189.29KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo