Ceci est le code de "l'apprentissage en triplet structuré avec l'attention guidée par le plateau de point de vente pour répondre à des questions visuelles, WACV 2018 (Zhe Wang, Xiaoyi Liu, Liangjian Chen, Limin Wang, Yu Qiao, XiaoHUi Xie, Charmless Fowlkes)", la bonne pratique dans le système VQA tel que l'attention de Pos-Tag, structurée Triplet, et l'attention triplet est très générale et peut être une attention à la fin du Triplet et un langage structuré et une attention en triplé tâche.
Si vous trouvez le code utile, veuillez citer le papier:
Si vous avez des commentaires pour le code, veuillez contacter:
Vous trouverez ci-dessous la vérification de l'efficacité étape par étape de notre méthode, notez pour accélérer la vérification, nous utilisons la fonction 7BY7 au lieu de la fonction 14BY14
| Méthode | V7w | Validation VQA |
|---|---|---|
| Notre base de référence | 65.6 | 58.3 |
| + L'attention guidée par étiquette POS (POS-ATT) | 66.3 | 58.7 |
| + N-gram convolutionnel (conv n-gram) | 66.2 | 59.3 |
| + POS-ATTL + conv n-gram | 66.6 | 59.5 |
| + POS-ATTME + conv n-gram + Triplet Acheture-Q | 66.8 | 60.1 |
| + Pos-att + conv n-gram + triplet attention - a | 67.0 | 60.1 |
| + Pos-att + conv n-gram + Triplet Attention-Q + A | 67.3 | 60.2 |
| + POS-ATTL + conv n-gram + Triplet Attention-Q + A + Triplés d'apprentissage structuré | 67.5 | 60.3 |
Notre modèle complet de performance
| Méthode | V7W raconter | Norme de test VQA | VQA Test Dev | VQA Test Dev Y / N | VQA Test Dev Num | VQA Test Dev |
|---|---|---|---|---|---|---|
| La nôtre | 68.2 | 69.6 | 69.7 | 81.9 | 44.3 | 64.7 |
Tensorflow, torche, pandas, h5py, ipdb, cv2, pdb, spacy, sklearn, matplotlib, pil, nltk
Téléchargez la fonction V7W Tell partagée sur https://drive.google.com/open?id=1hofquxw22j8soyje0vuzqxcnuvjd-e9v et exécutez "CUDA_VISIBLE_DEVICES = 0 Python v7w.py"
Téléchargez Visual7w: http://web.stanford.edu/~yukez/visual7w/ et glove: http://nlp.stanford.edu/data/wordvecs/glove.6b.zip de https://github.com/stanfordnlp/glove télécharger: https://d2j0dndfm35trm.cloudfront.net/resnet-200.t7
python data_preprocessing_7w.py --data_set teint
python prepro_7w.py
TH PREPRO_IMG_RESIDULE.LUA
Architecture :

Bonne pratique :
Python Comparrisons_wacv.py
Bons échantillons :
python draw_heat_new.py
De mauvais échantillons : 
Mit