Dataset Teks Gambar Berbasis Wikipedia (WIT) adalah dataset multibodual multimodal yang besar. Kecerdasan terdiri dari satu set yang dikuratori dari 37,6 juta contoh teks-teks kaya entitas dengan 11,5 juta gambar unik di 108 bahasa Wikipedia. Ukurannya memungkinkan kecerdasan untuk digunakan sebagai dataset pretraining untuk model pembelajaran mesin multimodal.
Beberapa keuntungan unik dari WIT:
Anda dapat mempelajari lebih lanjut tentang WIT Dataset dari kertas Arxiv kami.
2021 April: Senang berbagi kabar baik bahwa makalah kami diterima di Sigir Conference. Dari situs ACM, Anda dapat menemukan kertas, slide, dan presentasi kami.
2021 September: Kompetisi teks-teks adalah langsung di Kaggle. Kolaborator kami dari Wikimedia Research membuat blog tentang hal ini dan mereka telah menyediakan piksel mentah dan embeddings ResNet50 untuk gambar dalam set ini. Berikut adalah posting blog Google AI kami.
2022 April: Kami senang berbagi bahwa kertas dan dataset dianugerahi Penghargaan Penelitian Yayasan Wikimedia Tahun Ini (Tweet 1, Tweet 2). Kami sangat terhormat dan terima kasih atas pengakuannya.
2022 Mei: Kami telah merilis set validasi WIT dan set tes. Silakan lihat halaman data untuk tautan unduhan.
2022 OCT: Alat Penulisan untuk Proposal Konten Multimedia Diterima di TREC 2023
2023 Apr: Atomik diterima di Sigir 2023.
2023 Apr: Dataset WikiWeb2m dirilis.
2023 Mei: Pengajuan yang diterima di WikiWorkshop 2023.
Misalnya, mari kita ambil halaman Wikipedia untuk setengah kubah, Yosemite di ca.

Dari halaman Wikipedia untuk Half Dome: Foto oleh David Iliff. Lisensi: CC BY-SA 3.0
Dari halaman ini, kami menyoroti berbagai data utama yang dapat kami ekstrak - gambar, cuplikan teks masing -masing dan beberapa metadata kontekstual.

Dengan mengekstraksi dan memfilter ini dengan hati-hati, kami mendapatkan contoh teks-teks yang bersih dan berkualitas tinggi yang dapat digunakan dalam pemodelan multimodal.
Model visio-linguistik multimodal mengandalkan dataset yang kaya untuk membantu mereka belajar memodelkan hubungan antara gambar dan teks. Memiliki kumpulan data teks-teks yang besar dapat secara signifikan meningkatkan kinerja, seperti yang ditunjukkan oleh karya-karya terbaru. Selain itu, kurangnya cakupan bahasa dalam dataset yang ada (yang sebagian besar hanya dalam bahasa Inggris) juga menghambat penelitian dalam ruang multimodal multibahasa-kami menganggap ini sebagai peluang yang hilang mengingat potensi yang ditunjukkan dalam memanfaatkan gambar (sebagai media agnostik-bahasa) untuk membantu meningkatkan pemahaman tekstual multibahasa kami.
Untuk mengatasi tantangan-tantangan ini dan memajukan penelitian tentang pembelajaran multibahasa, multimodal, kami menciptakan dataset Teks Gambar (WIT) berbasis Wikipedia. Kecerdasan dibuat dengan mengekstraksi beberapa teks berbeda yang terkait dengan gambar (misalnya, seperti yang ditunjukkan pada gambar di atas) dari artikel Wikipedia dan tautan gambar Wikimedia. Ini disertai dengan pemfilteran ketat untuk hanya mempertahankan set teks gambar berkualitas tinggi.
Dataset yang dihasilkan berisi lebih dari 37,6 juta set teks-teks-menjadikan dataset multimoda terbesar (tersedia untuk umum pada saat penulisan ini) dengan cakupan multibahasa yang tak tertandingi-dengan 12K+ contoh di masing-masing 108 bahasa (53 bahasa memiliki pasangan 100K+ gambar-teks).
| Jenis | Kereta | Val | Tes | Total / Unik |
|---|---|---|---|---|
| Baris / tupel | 37.13m | 261.8k | 210.7k | 37.6m |
| Gambar unik | 11.4m | 58k | 57k | 11.5m |
| Ref. Teks | 16.9m | 150k | 104k | 17.2m / 16.7m |
| Attr. Teks | 34.8m | 193k | 200k | 35.2m / 10.9m |
| Teks alt | 5.3m | 29k | 29k | 5.4m / 5.3m |
| Teks konteks | - | - | - | 119.8m |
| Gambar-teks | # Lang | Uniq. Gambar | # Lang |
|---|---|---|---|
| Total> 1m | 9 | Gambar> 1m | 6 |
| Total> 500K | 10 | Gambar> 500k | 12 |
| Total> 100K | 36 | Gambar> 100K | 35 |
| Total> 50K | 15 | Gambar> 50K | 17 |
| Total> 14K | 38 | Gambar> 13K | 38 |
Kami percaya bahwa dataset beragam yang kuat akan membantu para peneliti dalam membangun model multibahasa multimoda yang lebih baik dan dalam mengidentifikasi teknik pembelajaran dan representasi yang lebih baik yang mengarah pada peningkatan model pembelajaran mesin dalam tugas dunia nyata melalui data visio-linguistik.
WIT Dataset sekarang tersedia untuk diunduh. Silakan periksa halaman data.
Jika Anda menggunakan Dataset WIT, Anda dapat mengutip pekerjaan kami sebagai berikut.
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
Data ini tersedia di bawah lisensi Creative Commons Attribution-Sharealike 3.0.
Untuk informasi tentang Mural (Multimodal, Multitask Retrieval Across Bahasa) Makalah yang diterima di EMNLP 2021.
Untuk pertanyaan apa pun, silakan hubungi [email protected]. Untuk pertanyaan apa pun kepada penulis pertama, Krishna, silakan jangkau melalui halaman pribadi mereka Krishna2.com untuk kontak Informaiton.
Jika WIT Dataset bermanfaat bagi Anda, silakan menulis kepada kami tentang hal itu. Baik itu posting blog, proyek penelitian atau makalah, kami senang mempelajarinya.