基於Wikipedia的圖像文本(WIT)數據集是一個大型的多模式多語言數據集。機智由一組精選的3760萬個實體富含圖像文本的示例組成,其中有1150萬個Wikipedia語言的獨特圖像。它的尺寸使WIT可以用作多模式機器學習模型的預處理數據集。
機智的一些獨特優勢:
您可以從我們的Arxiv紙上了解有關WIT數據集的更多信息。
2021年4月:很高興分享我們的論文在Sigir會議上被接受的好消息。在ACM站點中,您可以找到我們的紙張,幻燈片和演示文稿。
2021年9月:機智的圖像文本競賽在Kaggle舉行。我們來自Wikimedia Research的合作者對此進行了博客,他們為該集合中的圖像提供了RAW PIXEL和RESNET50嵌入。這是我們的Google AI博客文章。
2022年4月:我們很高興分享WIT PAPER和DATASET被授予Wikimedia Foundation年度研究獎(Tweet 1,Tweet 2)。我們非常榮幸,並感謝您的認可。
2022年5月:我們發布了機智驗證集和測試集。請參閱數據頁以獲取下載鏈接。
2022年10月:在TREC 2023接受的多媒體內容提案的創作工具
2023年4月:Atomic在Sigir 2023接受。
2023年4月:Wikiweb2m數據集發布。
2023年5月:在Wikiworkshop 2023上接受的意見書。
例如,讓我們以一半圓頂的Wikipedia頁面,約瑟米特(Yosemite)。

摘自Wikipedia頁面的Half Dome:David Iliff的照片。許可證:CC BY-SA 3.0
在此頁面中,我們突出顯示了我們可以提取的各種關鍵數據 - 圖像,它們各自的文本片段和某些上下文元數據。

通過仔細提取和過濾這些,我們獲得了一個可以在多模式建模中使用的干淨,高質量的圖像文本示例。
多模式粘性語言模型依靠豐富的數據集來幫助他們學習建模圖像和文本之間的關係。如最近的工作所示,擁有大型圖像文本數據集可以顯著提高性能。此外,在現有數據集中缺乏語言覆蓋範圍(主要是英語)也阻礙了多語言多模式空間的研究 - 鑑於利用圖像所顯示的潛力(作為一種語言 - 敏捷的媒介)所顯示的潛力(作為一種語言敏捷的媒介),我們認為這是一個丟失的機會,以幫助提高我們的多語言文本理解。
為了應對這些挑戰並提高有關多語言,多模式學習的研究,我們創建了基於Wikipedia的圖像文本(WIT)數據集。 WIT是通過從Wikipedia文章和Wikimedia圖像鏈接中提取與圖像(例如,如上圖所示)相關的多個不同文本(例如,如上圖所示)創建的。伴隨著嚴格的過濾,僅保留高質量的圖像文本集。
所得的數據集包含超過3760萬個圖像文本集 - 使WIT成為最大的多模式數據集(在本文寫作時公開獲得),具有無與倫比的多語言覆蓋範圍 - 在108種語言中具有12K+示例(53種語言具有100k+ Image-Text Pairs)。
| 類型 | 火車 | 瓦爾 | 測試 | 總 /獨特 |
|---|---|---|---|---|
| 行 /元組 | 37.13m | 261.8k | 210.7k | 376m |
| 獨特的圖像 | 114m | 58k | 57k | 115m |
| 參考。文字 | 169m | 150k | 104k | 17.2m / 16.7m |
| attr。文字 | 348m | 193k | 200k | 35.2m / 10.9m |
| Alt文字 | 5.3m | 29k | 29k | 5.4m / 5.3m |
| 上下文文本 | - | - | - | 1198m |
| 圖像文本 | #Lang | uniq。圖像 | #Lang |
|---|---|---|---|
| 總計> 1m | 9 | 圖像> 1m | 6 |
| 總計> 500k | 10 | 圖像> 500k | 12 |
| 總計> 100k | 36 | 圖像> 100k | 35 |
| 總計> 50k | 15 | 圖像> 50k | 17 |
| 總計> 14k | 38 | 圖像> 13k | 38 |
我們認為,如此強大的多元化數據集將幫助研究人員構建更好的多式模式模型,並確定更好的學習和表示技術,從而改善現實世界中的機器學習模型,而不是Visio-Linguistic數據。
WIT數據集現在可以下載。請檢查數據頁。
如果使用WIT數據集,則可以如下引用我們的工作。
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
這些數據可在創意共享歸因 - 共享3.0未運動許可下獲得。
有關壁畫(跨語言的多模式,多任務檢索)的信息,請參見EMNLP 2021的紙張。
如有任何疑問,請聯繫[email protected]。關於第一作者克里希納的任何疑問,請通過其個人頁面krishna2.com與Informaiton聯繫。
如果WIT數據集對您有用,請為我們寫信。無論是博客文章,研究項目還是論文,我們都很高興了解它。