Fuxiao Liu, Yinghan Wang, Tianlu Wang, Vicente Ordonez (EMNLP 2021)
เราเสนอ Visual News Pectioner ซึ่งเป็นรูปแบบที่ตระหนักถึงเอนทิตีสำหรับงานข่าวภาพ นอกจากนี้เรายังแนะนำ Visual News เกณฑ์มาตรฐานขนาดใหญ่ประกอบด้วยภาพข่าวมากกว่าหนึ่งล้านภาพพร้อมกับบทความข่าวที่เกี่ยวข้องคำบรรยายภาพข้อมูลผู้แต่งและข้อมูลเมตาอื่น ๆ ซึ่งแตกต่างจากงานคำบรรยายภาพมาตรฐานภาพข่าวแสดงถึงสถานการณ์ที่ผู้คนสถานที่และเหตุการณ์มีความสำคัญยิ่ง วิธีการที่เรานำเสนอสามารถรวมคุณสมบัติภาพและข้อความเพื่อสร้างคำอธิบายภาพกับข้อมูลที่สมบูรณ์ยิ่งขึ้นเช่นเหตุการณ์และเอนทิตี โดยเฉพาะอย่างยิ่งที่สร้างขึ้นบนสถาปัตยกรรมหม้อแปลงรุ่นของเราได้รับการติดตั้งเพิ่มเติมด้วยเทคนิคการหลอมรวมคุณสมบัติหลายรูปแบบและกลไกความสนใจซึ่งออกแบบมาเพื่อสร้างเอนทิตีที่มีชื่ออย่างแม่นยำมากขึ้น วิธีการของเราใช้พารามิเตอร์น้อยลงมากในขณะที่บรรลุผลการทำนายที่ดีกว่าวิธีการแข่งขันเล็กน้อย ชุดข้อมูลข่าวภาพขนาดใหญ่และหลากหลายของเราจะเน้นถึงความท้าทายที่เหลืออยู่ในภาพข่าว
@misc{liu2020visualnews,
title={VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
author={Fuxiao Liu and Yinghan Wang and Tianlu Wang and Vicente Ordonez},
year={2020},
eprint={2010.03743},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
}

รหัสของโมเดลของเราอยู่ใน./โมเดล
CUDA_VISIBLE_DEVICES=0 python main.py
หากคุณมีคำถามใด ๆ โปรดส่งอีเมล: [email protected] 
หากคุณพบว่ากระดาษ/รหัสของเรามีประโยชน์โปรดพิจารณาอ้าง: