VisualNews Repository下载 - VisualNews Repository源代码下载

VisualNews Repository

其他源码

1.0.0

下载

视觉新闻：新闻图像字幕中的基准和挑战

Fuxiao Liu，Yinghan Wang，Tianlu Wang，Vicente Ordonez（EMNLP 2021）

抽象的

我们提出了视觉新闻字幕仪，这是一种实体感知的新闻图像字幕任务的模型。我们还介绍了视觉新闻，这是一个大规模的基准，包括超过一百万个新闻图像以及相关的新闻文章，图像标题，作者信息和其他元数据。与标准图像字幕任务不同，新闻图像描绘了人们，位置和事件至关重要的情况。我们提出的方法可以有效地结合视觉和文本功能，以生成字幕以及更丰富的信息，例如事件和实体。更具体地说，是基于变压器体系结构的，我们的模型进一步配备了新型的多模式特征融合技术和注意力机制，这些功能和注意力机制旨在更准确地生成命名实体。我们的方法利用了比竞争方法更少的参数，同时实现了预测结果稍好。我们更大，更多样化的视觉新闻数据集进一步突出了标题为新闻图像的剩余挑战。

 @misc{liu2020visualnews,
      title={VisualNews : Benchmark and Challenges in Entity-aware Image Captioning}, 
      author={Fuxiao Liu and Yinghan Wang and Tianlu Wang and Vicente Ordonez},
      year={2020},
      eprint={2010.03743},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
}

消息

[03/13]我们的论文“ MMC：使用LLM指令调整来推进多模式图表的理解”已接受NAACL 2024 。
[02/26]我们的论文“ hallusionBench：您看到了什么想法？或者您认为您看到的是？图像上下文推理基准对GPT-4V（ISION），LLAVA-1.5和其他多模式模型挑战，也将其与CVPR 2024相关。
[01/15] ICLR 2024接受了我们的大型多模型模型中缓解大型多模式模型的幻觉