L'ensemble de données du texte d'image (WIT) basé sur Wikipedia est un grand ensemble de données multilingue multimodal . L'esprit est composé d'un ensemble organisé de 37,6 millions d'exemples de texte d'image riche entités avec 11,5 millions d'images uniques dans 108 langues Wikipedia. Sa taille permet à Wit d'être utilisé comme ensemble de données de pré-formation pour les modèles d'apprentissage automatique multimodaux.
Quelques avantages uniques de l'esprit:
Vous pouvez en savoir plus sur l'ensemble de données WIT à partir de notre article Arxiv.
2021 avril: heureux de partager la bonne nouvelle que notre journal a été accepté lors de la conférence Sigir. À partir du site ACM, vous pouvez trouver notre papier, nos diapositives et notre présentation.
2021 septembre: Le concours de texte d'image est en direct sur Kaggle. Nos collaborateurs de Wikimedia Research ont blogué à ce sujet et ils ont mis à disposition les pixels bruts et les intégres Resnet50 pour les images de cet ensemble. Voici notre article de blog Google AI.
2022 avril: Nous sommes heureux de partager que le papier et l'ensemble de données ont reçu le prix de recherche de l'année de la Wikimedia Foundation (Tweet 1, Tweet 2). Nous sommes profondément honorés et merci pour la reconnaissance.
2022 MAI: Nous avons publié l'ensemble de validation et le jeu de tests WIT. Veuillez consulter la page de données pour les liens de téléchargement.
2022 OCT: outils de création pour la proposition de contenu multimédia accepté au TREC 2023
2023 APR: Atomic accepté à Sigir 2023.
2023 APR: WikiWeb2m Dataset a été publié.
2023 mai: Soumissions acceptées au Wikiworkshop 2023.
Par exemple, prenons la page Wikipedia pour Half Dome, Yosemite en Californie.

De la page Wikipedia pour Half Dome: Photo de David Iliff. Licence: CC BY-SA 3.0
À partir de cette page, nous mettons en évidence les différentes données clés que nous pouvons extraire - les images, leurs extraits de texte respectifs et certaines métadonnées contextuelles.

En les extraitant et en les filtrant soigneusement, nous obtenons un exemple de texte d'image propre et de haute qualité qui peut être utilisé dans la modélisation multimodale.
Les modèles viso-linguistiques multimodaux s'appuient sur un ensemble de données riche pour les aider à apprendre à modéliser la relation entre les images et les textes. Le fait d'avoir de grands ensembles de données de texte d'image peut améliorer considérablement les performances, comme le montrent les travaux récents. De plus, le manque de couverture linguistique dans les ensembles de données existants (qui ne sont principalement en anglais) entrave également la recherche dans l'espace multimodal multilingue - nous considérons que cela est une opportunité perdue étant donné le potentiel montré dans la mise en œuvre d'images (en tant que support agnostique linguistique) pour aider à améliorer notre compréhension textuelle multilingue.
Pour relever ces défis et faire avancer la recherche sur l'apprentissage multilingue et multimodal, nous avons créé l'ensemble de données de texte d'image (WIT) basé sur Wikipedia. L'esprit est créé en extraite plusieurs textes différents associés à une image (par exemple, comme indiqué dans l'image ci-dessus) à partir d'articles Wikipedia et de liens d'image Wikimedia. Cela s'est accompagné d'un filtrage rigoureux pour conserver uniquement des ensembles de texte d'image de haute qualité.
L'ensemble de données résultant contient plus de 37,6 millions d'ensembles de texte d'image - ce qui rend le plus grand jeu de données multimodal (accessible au public au moment de la rédaction de cet article) avec une couverture multilingue inégalée - avec des exemples de 12k + dans chacune des 108 langues (53 langues ont des paires de texte d'image de 100k +).
| Taper | Former | Val | Test | Total / unique |
|---|---|---|---|---|
| Lignes / tuples | 37.13m | 261.8K | 210,7k | 37,6 m |
| Images uniques | 11.4m | 58k | 57K | 11,5m |
| Réf. Texte | 16,9 m | 150k | 104k | 17,2 m / 16,7 m |
| Att. Texte | 34,8 m | 193K | 200K | 35,2 m / 10,9 m |
| Texte alt | 5,3 m | 29K | 29K | 5,4 m / 5,3 m |
| Textes de contexte | - | - | - | 119,8 m |
| Texte d'image | # Lang | Uniq. Images | # Lang |
|---|---|---|---|
| Total> 1m | 9 | Images> 1m | 6 |
| Total> 500k | 10 | Images> 500k | 12 |
| Total> 100k | 36 | Images> 100k | 35 |
| Total> 50k | 15 | Images> 50K | 17 |
| Total> 14K | 38 | Images> 13K | 38 |
Nous pensons qu'un ensemble de données diversifié aussi puissant aidera les chercheurs à créer de meilleurs modèles multilingues multimodaux et à identifier de meilleures techniques d'apprentissage et de représentation conduisant à une amélioration des modèles d'apprentissage automatique dans des tâches réelles sur les données viso-linguistiques.
L'ensemble de données WIT est maintenant disponible en téléchargement. Veuillez vérifier la page de données.
Si vous utilisez l'ensemble de données WIT, vous pouvez citer notre travail comme suit.
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
Ces données sont disponibles sous la licence Unported Creative Commons Attribution-Sharealike 3.0.
Pour plus d'informations sur le papier mural (multimodal et multitâche sur les langues) accepté à l'EMNLP 2021.
Pour toute question, veuillez contacter [email protected]. À toutes les questions au premier auteur, Krishna, veuillez atteindre via leur page personnelle Krishna2.com pour contacter Informaiton.
Si l'ensemble de données WIT vous est utile, veuillez nous écrire à ce sujet. Que ce soit un article de blog, un projet de recherche ou un article, nous sommes ravis de les en apprendre davantage.