O conjunto de dados de texto de imagem baseado na Wikipedia (WIT) é um grande conjunto de dados multimodal multilíngue . A inteligência é composta por um conjunto com curadoria de 37,6 milhões de exemplos ricos em imagem, com 11,5 milhões de imagens exclusivas em 108 idiomas da Wikipedia. Seu tamanho permite que a inteligência seja usada como um conjunto de dados pré -treinamento para modelos multimodais de aprendizado de máquina.
Algumas vantagens únicas de inteligência:
Você pode aprender mais sobre o conjunto de dados WIT com nosso artigo ARXIV.
2021 de abril: Fico feliz em compartilhar as boas notícias que nosso artigo foi aceito na Conferência Sigir. No site da ACM, você pode encontrar nosso papel, slides e apresentação.
2021 de setembro: a competição Wit Image-Text está ao vivo em Kaggle. Nossos colaboradores da Wikimedia Research blogaram sobre isso e disponibilizaram os pixels brutos e as incorporações RESNET50 para as imagens neste conjunto. Aqui está a nossa postagem no blog do Google AI.
2022 ABRIL: Estamos felizes em compartilhar que o papel e o conjunto de dados do Wit recebeu o prêmio de pesquisa do ano da Wikimedia Foundation (Tweet 1, Tweet 2). Estamos profundamente honrados e obrigado pelo reconhecimento.
2022 MAIO: Lançamos o conjunto de validação do WIT e o conjunto de testes. Consulte a página de dados para download de links.
2022 outubro: Ferramentas de autoria para proposta de conteúdo multimídia aceita no TREC 2023
2023 ABR: Atomic aceito em Sigir 2023.
2023 APR: DataSet WikiWeb2M lançado.
2023 MAIO: Submissões aceitas no Wikiworkshop 2023.
Por exemplo, vamos pegar a página da Wikipedia por meia cúpula, Yosemite em ca.

Da página da Wikipedia para Half Dome: Foto de David Iliff. Licença: CC BY-SA 3.0
A partir desta página, destacamos as várias peças -chave dos dados que podemos extrair - imagens, seus respectivos trechos de texto e alguns metadados contextuais.

Ao extrair e filtrar isso com cuidado, obtemos um exemplo de texto de imagem limpo e de alta qualidade que pode ser usado na modelagem multimodal.
Os modelos visio-linguísticos multimodais dependem de um conjunto de dados rico para ajudá-los a aprender a modelar a relação entre imagens e textos. Ter grandes conjuntos de dados de texto de imagem pode melhorar significativamente o desempenho, conforme mostrado por trabalhos recentes. Além disso, a falta de cobertura do idioma nos conjuntos de dados existentes (que são principalmente apenas em inglês) também impede a pesquisa no espaço multimodal multilíngue-consideramos isso uma oportunidade perdida, dado o potencial mostrado na alavancagem de imagens (como um meio agnóstico da linguagem) para ajudar a melhorar nosso entendimento textual multilíngue.
Para enfrentar esses desafios e avançar pesquisas sobre aprendizado multimodal multilíngue, criamos o conjunto de dados de texto de imagem (WIT) baseado na Wikipedia. A inteligência é criada extraindo vários textos diferentes associados a uma imagem (por exemplo, como mostrado na imagem acima) dos artigos da Wikipedia e links de imagem da Wikimedia. Isso foi acompanhado por filtragem rigorosa para reter apenas conjuntos de texto de imagem de alta qualidade.
O conjunto de dados resultante contém mais de 37,6 milhões de conjuntos de textos de imagem-tornando o maior conjunto de dados multimodais (disponível publicamente no momento da redação deste artigo) com cobertura multilíngue incomparável-com exemplos de 12k+ em cada um dos 108 idiomas (53 idiomas têm pares de 100k+ text de 100k+).
| Tipo | Trem | Val | Teste | Total / exclusivo |
|---|---|---|---|---|
| Linhas / tuplas | 37.13m | 261.8k | 210.7k | 37,6m |
| Imagens únicas | 11,4m | 58K | 57k | 11,5m |
| Ref. Texto | 16,9m | 150K | 104K | 17,2m / 16,7m |
| Attr. Texto | 34,8m | 193K | 200k | 35,2m / 10,9m |
| TEXTO DE ALT | 5.3m | 29k | 29k | 5.4m / 5.3m |
| Textos de contexto | - | - | - | 119,8m |
| Texto da imagem | # Lang | Uniq. Imagens | # Lang |
|---|---|---|---|
| Total> 1m | 9 | imagens> 1m | 6 |
| Total> 500k | 10 | Imagens> 500k | 12 |
| Total> 100k | 36 | Imagens> 100k | 35 |
| Total> 50k | 15 | imagens> 50k | 17 |
| Total> 14k | 38 | Imagens> 13k | 38 |
Acreditamos que um conjunto de dados diversificado tão poderoso ajudará os pesquisadores a construir melhores modelos multimodais multilíngues e a identificar melhores técnicas de aprendizado e representação, levando à melhoria dos modelos de aprendizado de máquina em tarefas do mundo real em relação aos dados visio-linguísticos.
O conjunto de dados do WIT está agora disponível para download. Por favor, verifique a página de dados.
Se você usar o conjunto de dados do WIT, poderá citar nosso trabalho da seguinte forma.
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
Esses dados estão disponíveis sob a licença Creative Commons Attribution-ShareAlike 3.0.
Para obter informações sobre o documento mural (multimodal, recuperação multitarefa em todos os idiomas) aceito na EMNLP 2021.
Para qualquer dúvida, entre em contato com [email protected]. Para qualquer dúvida para o primeiro autor, Krishna, chegue através de sua página pessoal krishna2.com para entrar em contato com o InformaTon.
Se o DataSet WIT for útil, por favor, escreva para nós sobre isso. Seja uma postagem no blog, um projeto de pesquisa ou um artigo, estamos encantados em aprender sobre isso.