Fuxiao Liu ، Yinghan Wang ، Tianlu Wang ، Vicente Ordonez (EMNLP 2021)
نقترح Captioner Visual News ، وهو نموذج مدرك للكيان لمهمة التسمية التوضيحية لصورة الأخبار. نقدم أيضًا News Visual News ، وهو معيار واسع النطاق يتكون من أكثر من مليون صورة إخبارية إلى جانب المقالات الإخبارية المرتبطة بها ، وملصقات الصور ، ومعلومات المؤلف ، وغيرها من البيانات الأولية. على عكس مهمة تسميات التسمية التوضيحية القياسية ، تصور صور الأخبار المواقف التي يكون فيها الأشخاص والمواقع والأحداث ذات أهمية قصوى. يمكن أن تجمع طريقتنا المقترحة بشكل فعال بين الميزات المرئية والنصية لإنشاء التسميات التوضيحية مع المعلومات الأكثر ثراءً مثل الأحداث والكيانات. وبشكل أكثر تحديداً ، مبني على بنية المحولات ، تم تجهيز نموذجنا بشكل أكبر بتقنيات الانصهار الجديدة متعددة الوسائط وآليات الانتباه ، والتي تم تصميمها لإنشاء كيانات مسماة بشكل أكثر دقة. تستخدم طريقتنا عددًا أقل من المعلمات مع تحقيق نتائج تنبؤ أفضل قليلاً من الأساليب المتنافسة. تبرز مجموعة بيانات الأخبار البصرية الأكبر والأكثر تنوعًا التحديات المتبقية في الصور الإخبارية للتسمية.
@misc{liu2020visualnews,
title={VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
author={Fuxiao Liu and Yinghan Wang and Tianlu Wang and Vicente Ordonez},
year={2020},
eprint={2010.03743},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
}

رمز نموذجنا في ./model.
CUDA_VISIBLE_DEVICES=0 python main.py
إذا كان لديك أي أسئلة ، يرجى إرسال بريد إلكتروني: [email protected] 
إذا وجدت الورق/الكود الخاص بنا مفيدًا ، فيرجى التفكير في: