Este es el código para el "aprendizaje estructurado de triplete con la atención guiada por la etiqueta POS para la respuesta de las preguntas visuales, WACV 2018 (Zhe Wang, Xiaoyi Liu, Liangjian Chen, Limin Wang, Yu Qiao, Xiaohui Xie, Charless Fowlkes)", la buena práctica es una buena práctica en el sistema VQA como la atención de POS-Tag Tag-Tag, el aprendizaje estructurado y la atención de triple y el triplet, la atención y la atención de triplet, y puede ser muy general, y puede ser una buena práctica en el sistema de Visual, y puede ser la atención de Visualy y el lenguaje, y puede ser la atención de Visualy y el Llonglet, y puede ser una buena práctica en el sistema de Visual, y puede ser la atención de Visualy, y puede ser la atención de Visual Lliplet y puede ser muy general, y puede ser una buena práctica y puede ser una buena práctica en el sistema. tarea.
Si encuentra útil el código, cita el documento:
Si tiene comentarios para el código, comuníquese con:
A continuación se muestra la verificación de efectividad paso a paso de nuestro método, tenga en cuenta que para acelerar la verificación, utilizamos la función 7BY7 en lugar de la función 14BY14
| Método | V7W | Validación VQA |
|---|---|---|
| Nuestra línea de base | 65.6 | 58.3 |
| +Atención guiada de la etiqueta POS (POS-AT) | 66.3 | 58.7 |
| +N-gram convolucional (conv n-gram) | 66.2 | 59.3 |
| +Pos-att +conv n-gram | 66.6 | 59.5 |
| +Pos-att +conv n-gram +triplete de atención-q | 66.8 | 60.1 |
| +Pos-att +conv n-gram +triplete de atención-a | 67.0 | 60.1 |
| +POS-ATT +Conv N-Gram +Atención de triplete-Q +A | 67.3 | 60.2 |
| +POS-ATT +Conv N-Gram +Triplete de atención-Q +A +Triplete de aprendizaje estructurado | 67.5 | 60.3 |
Nuestro rendimiento del modelo completo
| Método | V7W Decir | Estándar de prueba VQA | VQA Test Dev | VQA Test Dev y/N | VQA Test Dev Num | VQA Test Dev otro |
|---|---|---|---|---|---|---|
| Nuestro | 68.2 | 69.6 | 69.7 | 81.9 | 44.3 | 64.7 |
TensorFlow, Torch, Pandas, H5Py, IPDB, CV2, PDB, Spacy, Sklearn, Matplotlib, PIL, NLTK
Descargue la función V7W Telling compartida en https://drive.google.com/open?id=1hofquxw22j8soyje0vuzqxcnuvjd-e9v y ejecute "cuda_visible_devices = 0 python v7w.py" "
Descargar Visual7w: http://web.stanford.edu/~yukez/visual7w/ y guante: http://nlp.stanford.edu/data/wordvecs/glove.6b.zip de https://github.com/stanfordnlp/glove Descargar:: https://d2j0dndfm35trm.cloudfront.net/resnet-200.t7
Python data_processing_7w.py --data_set dichor
Python Prepro_7w.py
th prepro_img_residule.lua
Arquitectura :

Buena práctica :
Python comparaciones_wacv.py
Buenas muestras :
python draw_heat_new.py
Malas muestras : 
MIT