El conjunto de datos de texto de imagen basado en Wikipedia (WIT) es un gran conjunto de datos multililingües multimodales . WIT está compuesto por un conjunto curado de 37.6 millones de ejemplos de texto de imágenes ricas en entidad con 11.5 millones de imágenes únicas en 108 lenguas de Wikipedia. Su tamaño permite que el ingenio se utilice como un conjunto de datos previos a la preparación para modelos de aprendizaje automático multimodal.
Algunas ventajas únicas de ingenio:
Puede obtener más información sobre el conjunto de datos WIT de nuestro artículo ARXIV.
2021 de abril: Feliz de compartir las buenas noticias de que nuestro periódico fue aceptado en la Conferencia Sigir. Desde el sitio ACM, puede encontrar nuestro artículo, diapositivas y presentación.
2021 septiembre: la competencia de texto de imagen de ingenio está en vivo en Kaggle. Nuestros colaboradores de Wikimedia Research bloguearon sobre esto y han puesto a disposición los incrustaciones RAW Pixels y ResNet50 para las imágenes en este conjunto. Aquí está nuestra publicación de blog de Google AI.
2022 de abril: Nos complace compartir que el Wit Paper y el conjunto de datos recibieron el Premio de Investigación del Año de la Fundación Wikimedia (Tweet 1, Tweet 2). Estamos profundamente honrados y gracias por el reconocimiento.
2022 Mayo: Hemos lanzado el conjunto de validación de WIT y el conjunto de pruebas. Consulte la página de datos para ver los enlaces de descarga.
2022 OCT: herramientas de autor para la propuesta de contenido multimedia aceptada en TREC 2023
2023 APR: Atómico aceptado en Sigir 2023.
2023 APR: Wikiweb2m DataSet lanzado.
2023 Mayo: presentaciones aceptadas en Wikiworkshop 2023.
Por ejemplo, tomemos la página de Wikipedia para Half Dome, Yosemite en ca.

Desde la página de Wikipedia para Half Dome: Foto de David Iliff. Licencia: CC BY-SA 3.0
Desde esta página, destacamos los diversos datos clave que podemos extraer: imágenes, sus respectivos fragmentos de texto y algunos metadatos contextuales.

Al extraer y filtrarlos cuidadosamente, obtenemos un ejemplo de texto de imagen limpio y de alta calidad que se puede usar en el modelado multimodal.
Los modelos visio-lingüísticos multimodales dependen de un conjunto de datos rico para ayudarlos a aprender a modelar la relación entre imágenes y textos. Tener grandes conjuntos de datos de texto de imagen puede mejorar significativamente el rendimiento, como se muestra en trabajos recientes. Además, la falta de cobertura lingüística en los conjuntos de datos existentes (que en su mayoría solo se encuentran en inglés) también impide la investigación en el espacio multilingüe multimodal: consideramos que esta es una oportunidad perdida dada el potencial que se muestra al aprovechar las imágenes (como un medio agnóstico del lenguaje) para ayudar a mejorar nuestra comprensión textual multilingüe.
Para abordar estos desafíos e investigaciones avanzadas sobre el aprendizaje multilingüe multimodal, creamos el conjunto de datos de texto de imagen (WIT) basado en Wikipedia. El WIT se crea extrayendo múltiples textos diferentes asociados con una imagen (por ejemplo, como se muestra en la imagen de arriba) de los artículos de Wikipedia y los enlaces de imagen de Wikimedia. Esto fue acompañado de un filtrado riguroso para retener conjuntos de texto de imagen de alta calidad.
El conjunto de datos resultante contiene más de 37.6 millones de conjuntos de texto de imagen, lo que hace que el conjunto de datos multimodal más grande (esté disponible públicamente en el momento de este escrito) con una cobertura multilingüe incomparable, con más de 12k ejemplos en cada uno de los 108 idiomas (53 idiomas tienen 100k+ pares de texto de imagen).
| Tipo | Tren | Val | Prueba | Total / único |
|---|---|---|---|---|
| Filas / tuplas | 37.13m | 261.8k | 210.7k | 37.6m |
| Imágenes únicas | 11.4m | 58k | 57k | 11.5m |
| Árbitro. Texto | 16.9m | 150k | 104k | 17.2m / 16.7m |
| Attr. Texto | 34.8m | 193k | 200K | 35.2m / 10.9m |
| Texto alternativo | 5.3m | 29k | 29k | 5.4m / 5.3m |
| Textos de contexto | - | - | - | 119.8m |
| Texto de imagen | # Lang | Uniq. Imágenes | # Lang |
|---|---|---|---|
| Total> 1m | 9 | Imágenes> 1M | 6 |
| Total> 500k | 10 | Imágenes> 500K | 12 |
| Total> 100k | 36 | Imágenes> 100k | 35 |
| Total> 50k | 15 | Imágenes> 50k | 17 |
| Total> 14k | 38 | Imágenes> 13k | 38 |
Creemos que un conjunto de datos diverso tan poderoso ayudará a los investigadores a construir mejores modelos multilingües multimodales e identificar mejores técnicas de aprendizaje y representación que conduzcan a la mejora de los modelos de aprendizaje automático en tareas del mundo real sobre datos visiolingüísticos.
Wit DataSet ahora está disponible para descargar. Consulte la página de datos.
Si usa el conjunto de datos WIT, puede citar nuestro trabajo de la siguiente manera.
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
Estos datos están disponibles bajo la licencia Creative Commons Attribution-Sharealike 3.0 Unported.
Para obtener información sobre el documento mural (Multimodal, Recuperación de varios pasos en todos los idiomas) aceptado en EMNLP 2021.
Para cualquier pregunta, comuníquese con [email protected]. A cualquier pregunta al primer autor, Krishna, llegue a través de su página personal krishna2.com para contactar a Informes.
Si Wit Wit DataSet es útil para usted, escríbanos al respecto. Ya sea una publicación de blog, un proyecto de investigación o un artículo, estamos encantados de aprender al respecto.