Wikipedia 기반 이미지 텍스트 (WIT) 데이터 세트 는 대규모 멀티 모달 다국어 데이터 세트입니다. WIT는 108 개의 Wikipedia Languages에서 1,150 만 개의 고유 한 이미지를 갖춘 3,760 만 개체의 리치 이미지 텍스트 예제로 구성됩니다. 그 크기를 통해 재치는 멀티 모달 머신 러닝 모델을위한 사전 조정 데이터 세트로 사용할 수 있습니다.
재치의 몇 가지 독특한 장점 :
ARXIV 논문에서 WIT 데이터 세트에 대한 자세한 내용을 알 수 있습니다.
2021 년 4 월 : Sigir Conference에서 우리 신문이 받아 들여 졌다는 좋은 소식을 나누게되어 기쁩니다. ACM 사이트에서 논문, 슬라이드 및 프레젠테이션을 찾을 수 있습니다.
2021 년 9 월 : Wit Image-Text 경쟁은 Kaggle에서 라이브입니다. Wikimedia Research의 공동 작업자는 이에 대해 블로그를 작성 했으며이 세트의 이미지에 대한 RAW 픽셀 및 RESNET50 임베딩을 제공했습니다. Google AI 블로그 게시물은 다음과 같습니다.
2022 년 4 월 : 우리는 Wit Paper and Dataset 이 올해의 Wikimedia Foundation의 연구 상을 수상했다는 것을 기쁘게 생각합니다 (트윗 1, 트윗 2). 우리는 깊이 영광을 누리고 인정해 주셔서 감사합니다.
2022 년 5 월 : 우리는 WIT 검증 세트 및 테스트 세트를 발표했습니다. 다운로드 링크는 데이터 페이지를 참조하십시오.
2022 년 10 월 : TREC 2023에서 수락 된 멀티미디어 컨텐츠 제안서 작성 도구
2023 년 4 월 : 시기르 2023에서 원자가 수용.
2023 APR : Wikiweb2m 데이터 세트가 출시되었습니다.
2023 년 5 월 : Wikiworkshop 2023에서 수락 된 제출.
예를 들어, CA의 Yosemite, Half Dome의 Wikipedia 페이지를 봅시다.

Half Dome의 Wikipedia 페이지에서 : David Iliff의 사진. 라이센스 : CC BY-SA 3.0
이 페이지에서 우리는 이미지, 해당 텍스트 스 니펫 및 일부 상황에 맞는 메타 데이터를 추출 할 수있는 다양한 주요 데이터를 강조합니다.

이것들을 신중하게 추출하고 필터링하여 멀티 모달 모델링에 사용할 수있는 깨끗하고 고품질의 이미지 텍스트 예제를 얻습니다.
멀티 모달 visio-linuistic 모델은 풍부한 데이터 세트에 의존하여 이미지와 텍스트의 관계를 모델링하는 법을 배우는 데 도움이됩니다. 큰 이미지 텍스트 데이터 세트를 갖는 것은 최근의 작품에서 볼 수 있듯이 성능을 크게 향상시킬 수 있습니다. 또한 기존 데이터 세트 (주로 영어로만)의 언어 적용 범위가 부족하면 다국어 멀티 모드 공간에 대한 연구가 방해가됩니다. 우리는 언어-비수분 매체로서의 다국적 텍스트 이해를 향상시키는 데 도움이되는 잠재력을 감안할 때이 기회가 손실된다고 생각합니다.
이러한 과제를 해결하고 다국어 멀티 모드 학습에 대한 연구를 위해 Wikipedia 기반 이미지 텍스트 (WIT) 데이터 세트를 만들었습니다. WIKIPEDIA 기사 및 Wikimedia Image Links에서 이미지 (예 : 위 이미지에 표시된 것처럼)와 관련된 여러 다른 텍스트를 추출하여 WIT가 생성됩니다. 이것은 고품질 이미지 텍스트 세트 만 유지하기 위해 엄격한 필터링을 동반했습니다.
결과 데이터 세트에는 3,760 만 개가 넘는 이미지 텍스트 세트가 포함되어 있습니다. 이는 108 개 언어 (53 개 언어에는 100k+ remage-text 쌍이 있습니다)의 12k+ 예제와 함께 비교할 수없는 다중 언어 적용 범위와 함께 가장 큰 멀티 모드 데이터 세트 (이 글쓰기시 공개적으로 제공)를 포함합니다.
| 유형 | 기차 | 발 | 시험 | 총 / 고유 |
|---|---|---|---|---|
| 줄 / 튜플 | 37.13m | 261.8K | 210.7k | 37.6m |
| 독특한 이미지 | 11.4m | 58K | 57k | 11.5m |
| 심판 텍스트 | 16.9m | 150K | 104K | 17.2m / 16.7m |
| att. 텍스트 | 34.8m | 193k | 200k | 35.2m / 10.9m |
| 대체 텍스트 | 5.3m | 29K | 29K | 5.4m / 5.3m |
| 문맥 텍스트 | - | - | - | 119.8m |
| 이미지 텍스트 | # 랭 | uniq. 이미지 | # 랭 |
|---|---|---|---|
| 총 1m | 9 | 이미지> 1m | 6 |
| 총> 500k | 10 | 이미지> 500K | 12 |
| 총> 100k | 36 | 이미지> 100k | 35 |
| 총> 50k | 15 | 이미지> 50k | 17 |
| 총> 14k | 38 | 이미지> 13k | 38 |
우리는 이러한 강력한 다양한 데이터 세트가 연구자들이 더 나은 멀티 모달 다국어 모델을 구축하고 더 나은 학습 및 표현 기술을 식별하는 데 도움이 될 것이라고 생각합니다.
WIT 데이터 세트를 다운로드 할 수 있습니다. 데이터 페이지를 확인하십시오.
WIT 데이터 세트를 사용하는 경우 다음과 같이 우리의 작업을 인용 할 수 있습니다.
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
이 데이터는 Creative Commons Attribution-Sharealike 3.0 Unported License에서 사용할 수 있습니다.
EMNLP 2021에서 수용된 벽화 (멀티 모달, 언어를 통한 멀티 태스킹 검색) 논문에 관한 정보.
질문이 있으시면 [email protected]에 문의하십시오. 첫 번째 저자 인 Krishna에게 질문이 있으시면 개인 페이지 krishna2.com을 통해 연락하십시오.
Wit 데이터 세트가 귀하에게 유용하다면, 그것에 대해 우리에게 편지를 보내주십시오. 블로그 게시물, 연구 프로젝트 또는 논문이든, 우리는 그것에 대해 배우게되어 기쁩니다.