VisualNews Repository
1.0.0
Fuxiao Liu,Yinghan Wang,Tianlu Wang,Vicente Ordonez(EMNLP 2021)
我们提出了视觉新闻字幕仪,这是一种实体感知的新闻图像字幕任务的模型。我们还介绍了视觉新闻,这是一个大规模的基准,包括超过一百万个新闻图像以及相关的新闻文章,图像标题,作者信息和其他元数据。与标准图像字幕任务不同,新闻图像描绘了人们,位置和事件至关重要的情况。我们提出的方法可以有效地结合视觉和文本功能,以生成字幕以及更丰富的信息,例如事件和实体。更具体地说,是基于变压器体系结构的,我们的模型进一步配备了新型的多模式特征融合技术和注意力机制,这些功能和注意力机制旨在更准确地生成命名实体。我们的方法利用了比竞争方法更少的参数,同时实现了预测结果稍好。我们更大,更多样化的视觉新闻数据集进一步突出了标题为新闻图像的剩余挑战。
@misc{liu2020visualnews,
title={VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
author={Fuxiao Liu and Yinghan Wang and Tianlu Wang and Vicente Ordonez},
year={2020},
eprint={2010.03743},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
}

我们模型的代码在./model中。
CUDA_VISIBLE_DEVICES=0 python main.py
如有任何疑问,请发送电子邮件至[email protected] 
如果您发现我们的论文/代码有用,请考虑引用: