นี่คือรหัสสำหรับ "การเรียนรู้ทริปเปิลที่มีโครงสร้างด้วยความสนใจแบบ Pos-tag สำหรับการตอบคำถามด้วยภาพ, WACV 2018 (Zhe Wang, Xiaoyi Liu, Liangjian Chen, Limin Wang, Yu Qiao, Xiaohui Xie ในงานภาพและภาษาเกือบทุกอย่าง
หากคุณพบว่ารหัสมีประโยชน์โปรดอ้างอิงกระดาษ:
หากคุณมีข้อเสนอแนะสำหรับรหัสโปรดติดต่อ:
ด้านล่างคือการตรวจสอบประสิทธิภาพทีละขั้นตอนของวิธีการของเราหมายเหตุเพื่อเพิ่มความเร็วในการตรวจสอบเราใช้คุณสมบัติ 7by7 แทนคุณสมบัติ 14by14
| วิธี | V7W | การตรวจสอบ VQA |
|---|---|---|
| พื้นฐานของเรา | 65.6 | 58.3 |
| +POS Tag ให้ความสนใจ (POS-ATT) | 66.3 | 58.7 |
| +Convolutional N-Gram (Conv N-Gram) | 66.2 | 59.3 |
| +pos-att +conv n-gram | 66.6 | 59.5 |
| +pos-att +conv n-gram +triplet atternest-q | 66.8 | 60.1 |
| +pos-att +conv n-gram +triplet attere-a | 67.0 | 60.1 |
| +pos-att +conv n-gram +triplet atternest-q +a | 67.3 | 60.2 |
| +pos-att +conv n-gram +triplet atternest-q +a +การเรียนรู้ที่มีโครงสร้าง triplets | 67.5 | 60.3 |
ประสิทธิภาพของโมเดลเต็มรูปแบบของเรา
| วิธี | V7W บอก | มาตรฐานการทดสอบ VQA | dev test vqa | การทดสอบ VQA dev y/n | การทดสอบ VQA dev num | VQA ทดสอบ dev อื่น ๆ |
|---|---|---|---|---|---|---|
| ของเรา | 68.2 | 69.6 | 69.7 | 81.9 | 44.3 | 64.7 |
Tensorflow, คบเพลิง, แพนด้า, H5py, IPDB, CV2, PDB, Spacy, Sklearn, Matplotlib, PIL, NLTK
ดาวน์โหลดคุณสมบัติการบอก V7W ที่แชร์บน https://drive.google.com/open?id=1hofquxw22j8soyje0vuzqxcnuvjd-e9v และเรียกใช้ "cuda_visible_devices = 0 Python V7W.py"
ดาวน์โหลด Visual7W: http://web.stanford.edu/~yukez/visual7w/ และถุงมือ: http://nlp.stanford.edu/data/wordvecs/glove.6b.zip จาก https://github.com/stanfordnlove https://d2j0dndfm35trm.cloudfront.net/resnet-200.t7
python data_preprocessing_7w.py -data_set บอกเล่า
Python prepro_7w.py
th prepro_img_residule.lua
สถาปัตยกรรม :

แนวปฏิบัติที่ดี :
Python Comparisons_wacv.py
ตัวอย่างที่ดี :
Python draw_heat_new.py
ตัวอย่างที่ไม่ดี : 
มิกซ์