Набор данных на основе википедии (WIT) -большой многоязычный набор данных. В Его размер позволяет использовать остроумие в качестве набора данных предварительного подготовки для моделей мультимодального машинного обучения.
Несколько уникальных преимуществ остроумия:
Вы можете узнать больше о наборе данных Wit от нашей статьи Arxiv.
2021 апрель: рад поделиться хорошими новостями, которые наша газета была принята на конференции Sigir. На сайте ACM вы можете найти нашу бумагу, слайды и презентацию.
2021 сентябрь: соревнование с изображением текста с изображением вживую на Kaggle. Наши сотрудники из Wikimedia Research блокировали об этом, и они предоставили встроенные встраиваемые пиксели Pixels и Resnet50 для изображений в этом наборе. Вот наш пост в блоге Google AI.
2022 апрель: мы рады поделиться тем, что документ и набор данных Wit Paper был удостоен награды Фонда Викимедии за год (твит 1, твит 2). Мы глубоко удостоены чести и спасибо за признание.
2022 май: мы выпустили набор проверки WIT и набор тестов. Пожалуйста, смотрите страницу данных для загрузки ссылок.
2022 октябрь: инструменты создания предложения по мультимедийному контенту принято на Trec 2023
2023 апрель: Атомник принят в Sigir 2023.
2023 апрель: выпущен набор данных WikiWeb2m.
2023 май: принятые материалы на вики -обработке 2023.
Например, давайте возьмем страницу Википедии для Half Dome, Yosemite в ок.

На странице Википедии для Половины Купол: Фото Дэвида Илиффа. Лицензия: CC By-Sa 3.0
На этой странице мы выделяем различные ключевые детали данных, которые мы можем извлечь - изображения, их соответствующие фрагменты текста и некоторые контекстуальные метаданные.

Тщательно извлекая и фильтруя их, мы получаем чистый высококачественный пример изображения-текста, который можно использовать в мультимодальном моделировании.
Мультимодальные визио-лингвистические модели полагаются на богатый набор данных, чтобы помочь им научиться моделировать отношения между изображениями и текстами. Наличие больших наборов данных текста изображения может значительно повысить производительность, как показано в последних работах. Кроме того, отсутствие языкового охвата в существующих наборах данных (которые в основном находятся только на английском языке) также препятствует исследованиям в многоязычном мультимодальном пространстве-мы считаем это утраченной возможностью, учитывая потенциал, показанный при использовании изображений (в качестве языковой среды), чтобы помочь улучшить наше многоязычное текстовое понимание.
Чтобы решить эти проблемы и продвигать исследования многоязычного мультимодального обучения, мы создали набор данных текста изображений (WIT) на основе Википедии. Остроумие создается путем извлечения нескольких различных текстов, связанных с изображением (например, как показано на приведенном выше изображении) из статей Википедии и ссылок на изображение Wikimedia. Это сопровождалось строгой фильтрацией, чтобы сохранить только высококачественные наборы изображений.
Полученный набор данных содержит более 37,6 млн. Наборов с изображением текста-создавая самый большой мультимодальный набор данных (общедоступный на момент написания этой статьи) с непревзойденным многоязычным покрытием-с примерами 12K+ на каждом из 108 языков (53 языка имеют 100 тыс.+ Пары изображений).
| Тип | Тренироваться | Дольдо | Тест | Всего / уникально |
|---|---|---|---|---|
| Ряды / кортежи | 37.13M | 261.8K | 210.7K | 37,6 м |
| Уникальные изображения | 11,4 м | 58к | 57K | 11,5 м |
| Рефери Текст | 16,9 м | 150K | 104K | 17,2 м / 16,7 м |
| Атрис Текст | 34,8 м | 193к | 200k | 35,2 м / 10,9 м |
| Alt Text | 5,3 м | 29K | 29K | 5,4 м / 5,3 м |
| Контекстные тексты | - | - | - | 119,8 м |
| Изображение-текст | # Lang | Университет Изображения | # Lang |
|---|---|---|---|
| Всего> 1м | 9 | изображения> 1м | 6 |
| Всего> 500K | 10 | Изображения> 500K | 12 |
| Всего> 100K | 36 | Изображения> 100 тыс. | 35 |
| Всего> 50K | 15 | изображения> 50K | 17 |
| Всего> 14K | 38 | изображения> 13K | 38 |
Мы считаем, что такой мощный разнообразный набор данных поможет исследователям в создании лучших мультимодальных многоязычных моделей и в определении лучших методов обучения и представления, приводящих к улучшению моделей машинного обучения в реальных задачах по сравнению с виссолингвистическими данными.
Набор данных WIT теперь доступен для скачивания. Пожалуйста, проверьте страницу данных.
Если вы используете набор данных WIT, вы можете привести нашу работу следующим образом.
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
Эти данные доступны в соответствии с лицензией Creative Commons Attribution-Sharealike 3.0.
Для получения информации о фреске (мультимодальный, многозадачный поиск по языкам), принятая в EMNLP 2021.
По любым вопросам, пожалуйста, свяжитесь с [email protected]. На любые вопросы первым автору, Кришне, пожалуйста, пройдите через их личную страницу Krishna2.com для контакта Informaiton.
Если набор данных Wit полезен для вас, пожалуйста, напишите нам об этом. Будь то сообщение в блоге, исследовательский проект или статья, мы рады узнать об этом.