VisualNews Repository
1.0.0
Fuxiao Liu、Yinghan Wang、Tianlu Wang、Vicente Ordonez(EMNLP 2021)
News Imageキャプションのタスクに関するエンティティを意識するモデルであるVisual News Captionerを提案します。また、関連するニュース記事、画像キャプション、著者情報、その他のメタデータとともに、100万件以上のニュース画像で構成される大規模なベンチマークであるVisual Newsも紹介します。標準の画像キャプションタスクとは異なり、ニュース画像は、人、場所、イベントが最も重要な状況を示しています。提案された方法は、視覚的機能とテキスト機能を効果的に組み合わせて、イベントやエンティティなどのより豊富な情報を使用してキャプションを生成できます。より具体的には、変圧器アーキテクチャの上に構築されたこのモデルには、新しいマルチモーダル機能融合技術と注意メカニズムがさらに装備されており、名前付きエンティティをより正確に生成するように設計されています。私たちの方法は、競合する方法よりもわずかに優れた予測結果を達成しながら、はるかに少ないパラメーターを利用します。私たちのより大きく、より多様なビジュアルニュースデータセットは、ニュース画像のキャプションの残りの課題をさらに強調しています。
@misc{liu2020visualnews,
title={VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
author={Fuxiao Liu and Yinghan Wang and Tianlu Wang and Vicente Ordonez},
year={2020},
eprint={2010.03743},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
}

モデルのコードは./modelです。
CUDA_VISIBLE_DEVICES=0 python main.py
ご質問がある場合は、[email protected]にメールしてください
私たちの論文/コードが役立つと思う場合は、引用を検討してください。