Descargar STL VQA - Descargar código fuente de STL VQA

STL VQA

Otro código fuente

1.0.0

Descargar

Aprendizaje de triplete estructurado con atención guiada de TAP POS para la respuesta de las preguntas visuales

Este es el código para el "aprendizaje estructurado de triplete con la atención guiada por la etiqueta POS para la respuesta de las preguntas visuales, WACV 2018 (Zhe Wang, Xiaoyi Liu, Liangjian Chen, Limin Wang, Yu Qiao, Xiaohui Xie, Charless Fowlkes)", la buena práctica es una buena práctica en el sistema VQA como la atención de POS-Tag Tag-Tag, el aprendizaje estructurado y la atención de triple y el triplet, la atención y la atención de triplet, y puede ser muy general, y puede ser una buena práctica en el sistema de Visual, y puede ser la atención de Visualy y el lenguaje, y puede ser la atención de Visualy y el Llonglet, y puede ser una buena práctica en el sistema de Visual, y puede ser la atención de Visualy, y puede ser la atención de Visual Lliplet y puede ser muy general, y puede ser una buena práctica y puede ser una buena práctica en el sistema. tarea.

Si encuentra útil el código, cita el documento:

Aprendizaje de triplete estructurado con atención guiada para la TAG para las preguntas visuales respondiendo a WACV 2018 (Zhe Wang, Xiaoyi Liu, Liangjian Chen, Limin Wang, Yu Qiao, Xiaohui Xie, Charless Fowlkes)

Si tiene comentarios para el código, comuníquese con:

buptwangzhe2012 en gmail dot com

Actuación

A continuación se muestra la verificación de efectividad paso a paso de nuestro método, tenga en cuenta que para acelerar la verificación, utilizamos la función 7BY7 en lugar de la función 14BY14

Método	V7W	Validación VQA
Nuestra línea de base	65.6	58.3
+Atención guiada de la etiqueta POS (POS-AT)	66.3	58.7
+N-gram convolucional (conv n-gram)	66.2	59.3
+Pos-att +conv n-gram	66.6	59.5
+Pos-att +conv n-gram +triplete de atención-q	66.8	60.1
+Pos-att +conv n-gram +triplete de atención-a	67.0	60.1
+POS-ATT +Conv N-Gram +Atención de triplete-Q +A	67.3	60.2
+POS-ATT +Conv N-Gram +Triplete de atención-Q +A +Triplete de aprendizaje estructurado	67.5	60.3

Nuestro rendimiento del modelo completo

Método	V7W Decir	Estándar de prueba VQA	VQA Test Dev	VQA Test Dev y/N	VQA Test Dev Num	VQA Test Dev otro
Nuestro	68.2	69.6	69.7	81.9	44.3	64.7

Requisito previo

TensorFlow, Torch, Pandas, H5Py, IPDB, CV2, PDB, Spacy, Sklearn, Matplotlib, PIL, NLTK

Demostración rápida

Descargue la función V7W Telling compartida en https://drive.google.com/open?id=1hofquxw22j8soyje0vuzqxcnuvjd-e9v y ejecute "cuda_visible_devices = 0 python v7w.py" "

Preprocesamiento de datos

Descargar Visual7w: http://web.stanford.edu/~yukez/visual7w/ y guante: http://nlp.stanford.edu/data/wordvecs/glove.6b.zip de https://github.com/stanfordnlp/glove Descargar:: https://d2j0dndfm35trm.cloudfront.net/resnet-200.t7

Python data_processing_7w.py --data_set dichor

Python Prepro_7w.py

th prepro_img_residule.lua