ウィキペディアベースの画像テキスト(WIT)データセットは、大規模なマルチモーダル多言語データセットです。 WITは、108のウィキペディア言語で1150万のユニークな画像を備えた3760万のエンティティリッチ画像テキストの例のキュレーションされたセットで構成されています。そのサイズにより、Multimodal Machine Learningモデルの前登録データセットとしてWITを使用できます。
機知のいくつかのユニークな利点:
ARXIVペーパーからWITデータセットの詳細をご覧ください。
2021年4月:私たちの論文がSigir Conferenceで受け入れられた良いニュースを共有してうれしいです。 ACMサイトから、私たちの論文、スライド、プレゼンテーションを見つけることができます。
2021年9月:ウィットイメージテキストコンペティションはKaggleでライブです。 Wikimedia Researchの協力者はこれについてブログを書いており、このセットの画像にRaw PixelsとResnet50埋め込みを利用できるようにしました。これがGoogle AIブログ投稿です。
2022年4月: WIKIMEDIA Foundation's Research Award of the Year (Tweet 1、Tweet 2)が授与されたことを喜んで共有します。私たちは深く光栄に思っており、認められてくれてありがとう。
2022年5月:WIT検証セットとテストセットをリリースしました。ダウンロードリンクについては、データページをご覧ください。
2022年10月:TREC 2023で受け入れられたマルチメディアコンテンツの提案用のオーサリングツール
2023年4月:AtomicはSigir 2023で受け入れられました。
2023年4月:WikiWeb2Mデータセットがリリースされました。
2023年5月:Wikiworkshop 2023での承認提出。
たとえば、カリフォルニア州のハーフドーム、ヨセミテのウィキペディアページを見てみましょう。

ハーフドームのウィキペディアページから:David Iliffによる写真。ライセンス:CC by-sa 3.0
このページから、画像、それぞれのテキストスニペット、いくつかのコンテキストメタデータなど、抽出できるさまざまな重要なデータを強調しています。

これらを慎重に抽出してフィルタリングすることにより、マルチモーダルモデリングで使用できる、きれいで高品質の画像テキストの例を取得します。
マルチモーダルビジョン言語モデルは、豊富なデータセットに依存して、画像とテキストの関係をモデル化することを学ぶのに役立ちます。最近の作品で示されているように、大きな画像テキストデータセットを持つことはパフォーマンスを大幅に改善できます。さらに、既存のデータセット(ほとんどが英語のみ)の言語カバレッジの欠如は、多言語のマルチモーダル空間での研究を妨げています。これは、多言語のテキスト理解を改善するための画像(言語に伴い媒体として)を活用する可能性を考えると、失われた機会だと考えています。
これらの課題に対処し、多言語のマルチモーダル学習に関する研究を進めるために、ウィキペディアベースの画像テキスト(WIT)データセットを作成しました。 WITは、ウィキペディアの記事とウィキメディア画像リンクから画像に関連付けられた複数の異なるテキスト(上記の画像に示すように)を抽出することによって作成されます。これには、高品質の画像テキストセットのみを保持するための厳密なフィルタリングが伴いました。
結果のデータセットには、3760万を超える画像テキストセットが含まれています。これは、比類のない多言語カバレッジを備えた最大のマルチモーダルデータセット(この執筆時点で公開)になります。108言語(53言語には100K+画像テキストペアがあります)が12K+の例があります。
| タイプ | 電車 | ヴァル | テスト | 合計 /ユニーク |
|---|---|---|---|---|
| 行 /タプル | 37.13m | 261.8k | 210.7k | 37.6m |
| ユニークな画像 | 11.4m | 58k | 57k | 11.5m |
| ref。文章 | 16.9m | 150k | 104k | 17.2m / 16.7m |
| attr。文章 | 34.8m | 193k | 200k | 35.2m / 10.9m |
| altテキスト | 5.3m | 29k | 29k | 5.4m / 5.3m |
| コンテキストテキスト | - | - | - | 119.8m |
| 画像テキスト | #ラング | uniq。画像 | #ラング |
|---|---|---|---|
| 合計> 1m | 9 | 画像> 1m | 6 |
| 合計> 500k | 10 | 画像> 500k | 12 |
| 合計> 100k | 36 | 画像> 100k | 35 |
| 合計> 50k | 15 | 画像> 50k | 17 |
| 合計> 14k | 38 | 画像> 13K | 38 |
このような強力な多様なデータセットは、研究者がより良いマルチモーダル多言語モデルを構築し、視覚視点データよりも現実世界のタスクにおける機械学習モデルの改善につながるより良い学習および表現技術を特定するのを支援すると考えています。
Wit Datasetがダウンロードできるようになりました。データページを確認してください。
WITデータセットを使用する場合は、次のように作業を引用できます。
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
このデータは、Creative Commons Attribution-Sharealike 3.0 Unportedライセンスの下で入手できます。
EMNLP 2021で受け入れられた壁画(言語間のマルチモーダル、マルチタスク検索)に関する情報については。
ご質問については、[email protected]にお問い合わせください。最初の著者であるクリシュナへのご質問については、個人のページkrishna2.comをご連絡ください。
Wit Datasetが役立つ場合は、それについて私たちに書いてください。ブログ投稿、研究プロジェクト、論文など、私たちはそれについて学ぶことを嬉しく思います。