基于Wikipedia的图像文本(WIT)数据集是一个大型的多模式多语言数据集。机智由一组精选的3760万个实体富含图像文本的示例组成,其中有1150万个Wikipedia语言的独特图像。它的尺寸使WIT可以用作多模式机器学习模型的预处理数据集。
机智的一些独特优势:
您可以从我们的Arxiv纸上了解有关WIT数据集的更多信息。
2021年4月:很高兴分享我们的论文在Sigir会议上被接受的好消息。在ACM站点中,您可以找到我们的纸张,幻灯片和演示文稿。
2021年9月:机智的图像文本竞赛在Kaggle举行。我们来自Wikimedia Research的合作者对此进行了博客,他们为该集合中的图像提供了RAW PIXEL和RESNET50嵌入。这是我们的Google AI博客文章。
2022年4月:我们很高兴分享WIT PAPER和DATASET被授予Wikimedia Foundation年度研究奖(Tweet 1,Tweet 2)。我们非常荣幸,并感谢您的认可。
2022年5月:我们发布了机智验证集和测试集。请参阅数据页以获取下载链接。
2022年10月:在TREC 2023接受的多媒体内容提案的创作工具
2023年4月:Atomic在Sigir 2023接受。
2023年4月:Wikiweb2m数据集发布。
2023年5月:在Wikiworkshop 2023上接受的意见书。
例如,让我们以一半圆顶的Wikipedia页面,约瑟米特(Yosemite)。

摘自Wikipedia页面的Half Dome:David Iliff的照片。许可证:CC BY-SA 3.0
在此页面中,我们突出显示了我们可以提取的各种关键数据 - 图像,它们各自的文本片段和某些上下文元数据。

通过仔细提取和过滤这些,我们获得了一个可以在多模式建模中使用的干净,高质量的图像文本示例。
多模式粘性语言模型依靠丰富的数据集来帮助他们学习建模图像和文本之间的关系。如最近的工作所示,拥有大型图像文本数据集可以显着提高性能。此外,在现有数据集中缺乏语言覆盖范围(主要是英语)也阻碍了多语言多模式空间的研究 - 鉴于利用图像所显示的潜力(作为一种语言 - 敏捷的媒介)所显示的潜力(作为一种语言敏捷的媒介),我们认为这是一个丢失的机会,以帮助提高我们的多语言文本理解。
为了应对这些挑战并提高有关多语言,多模式学习的研究,我们创建了基于Wikipedia的图像文本(WIT)数据集。 WIT是通过从Wikipedia文章和Wikimedia图像链接中提取与图像(例如,如上图所示)相关的多个不同文本(例如,如上图所示)创建的。伴随着严格的过滤,仅保留高质量的图像文本集。
所得的数据集包含超过3760万个图像文本集 - 使WIT成为最大的多模式数据集(在本文写作时公开获得),具有无与伦比的多语言覆盖范围 - 在108种语言中具有12K+示例(53种语言具有100k+ Image-Text Pairs)。
| 类型 | 火车 | 瓦尔 | 测试 | 总 /独特 |
|---|---|---|---|---|
| 行 /元组 | 37.13m | 261.8k | 210.7k | 376m |
| 独特的图像 | 114m | 58k | 57k | 115m |
| 参考。文本 | 169m | 150k | 104k | 17.2m / 16.7m |
| attr。文本 | 348m | 193k | 200k | 35.2m / 10.9m |
| Alt文字 | 5.3m | 29k | 29k | 5.4m / 5.3m |
| 上下文文本 | - | - | - | 1198m |
| 图像文本 | #Lang | uniq。图像 | #Lang |
|---|---|---|---|
| 总计> 1m | 9 | 图像> 1m | 6 |
| 总计> 500k | 10 | 图像> 500k | 12 |
| 总计> 100k | 36 | 图像> 100k | 35 |
| 总计> 50k | 15 | 图像> 50k | 17 |
| 总计> 14k | 38 | 图像> 13k | 38 |
我们认为,如此强大的多元化数据集将帮助研究人员构建更好的多式模式模型,并确定更好的学习和表示技术,从而改善现实世界中的机器学习模型,而不是Visio-Linguistic数据。
WIT数据集现在可以下载。请检查数据页。
如果使用WIT数据集,则可以如下引用我们的工作。
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
这些数据可在创意共享归因 - 共享3.0未运动许可下获得。
有关壁画(跨语言的多模式,多任务检索)的信息,请参见EMNLP 2021的纸张。
如有任何疑问,请联系[email protected]。关于第一作者克里希纳的任何疑问,请通过其个人页面krishna2.com与Informaiton联系。
如果WIT数据集对您有用,请为我们写信。无论是博客文章,研究项目还是论文,我们都很高兴了解它。