مجموعة بيانات نص الصورة المستندة إلى Wikipedia هي مجموعة بيانات كبيرة متعددة اللغات . يتكون Wit من مجموعة من 37.6 مليون من أمثلة نص صور غنية بالكيان مع 11.5 مليون صورة فريدة عبر 108 لغة ويكيبيديا. يمكّن حجمه لاستخدامه كمجموعة بيانات مستدرسة لنماذج التعلم الآلي متعددة الوسائط.
بعض المزايا الفريدة للذكاء:
يمكنك معرفة المزيد عن مجموعة بيانات Wit من ورقة Arxiv الخاصة بنا.
2021 أبريل: سعيد بمشاركة الأخبار الجيدة التي تم قبول ورقتنا في مؤتمر سيجير. من موقع ACM ، يمكنك العثور على الورق والشرائح والعرض التقديمي.
2021 سبتمبر: منافسة نص الصورة على الهواء مباشرة على Kaggle. قام المتعاونون لدينا من Wikimedia Research بتدوين حول هذا الموضوع ، وقد أتاحوا البكسلات Raw Pixels و ResNet50 للصور في هذه المجموعة. هنا هو منشور مدونة Google AI الخاص بنا.
2022 أبريل: يسعدنا أن نشارك أن Wit Paper and DataSet حصلت على جائزة الأبحاث الخاصة بمؤسسة ويكيميديا لهذا العام (Twitter 1 ، Tweet 2). نحن يشرفنا بعمق ونشكرك على التقدير.
2022 مايو: لقد أصدرنا مجموعة التحقق من الصحة ومجموعة الاختبار. يرجى الاطلاع على صفحة البيانات لروابط التنزيل.
2022 أكتوبر: أدوات تأليف لاقتراح محتوى الوسائط المتعددة المقبولة في TREC 2023
2023 أبريل: Atomic مقبولة في Sigir 2023.
2023 أبريل: تم إصدار مجموعة بيانات WikiWeb2M.
2023 مايو: التقديمات المقبولة في ويكي وورorkshop 2023.
على سبيل المثال ، دعنا نأخذ صفحة ويكيبيديا لنصف قبة ، يوسمايت في كاليفورنيا.

من صفحة ويكيبيديا لنصف قبة: تصوير ديفيد إيليف. الترخيص: CC BY-SA 3.0
من هذه الصفحة ، نسلط الضوء على مختلف أجزاء البيانات الرئيسية التي يمكننا استخراجها - الصور ، ومقتطفات النص كل منها وبعض البيانات الوصفية السياقية.

من خلال استخراج وتصفية هذه بعناية ، نحصل على مثال نص نظيف وعالي الجودة يمكن استخدامه في النمذجة متعددة الوسائط.
تعتمد النماذج اللغوية متعددة الوسائط على مجموعة بيانات غنية لمساعدتها على تعلم تصميم العلاقة بين الصور والنصوص. يمكن أن يؤدي وجود مجموعات بيانات النص الكبيرة إلى تحسين الأداء بشكل كبير ، كما هو موضح في الأعمال الحديثة. علاوة على ذلك ، فإن الافتقار إلى التغطية اللغوية في مجموعات البيانات الحالية (والتي هي في الغالب باللغة الإنجليزية فقط) يعوق أيضًا البحث في المساحة المتعددة الوسائط المتعددة-نعتبر هذه فرصة ضائعة بالنظر إلى الإمكانات الموضحة في الاستفادة من الصور (كوسيلة غير مصابة باللغة) للمساعدة في تحسين فهمنا النصفي متعدد اللغات.
لمعالجة هذه التحديات والبحث المسبق حول التعلم متعدد الوسائط ، أنشأنا مجموعة بيانات نص الصورة المستندة إلى ويكيبيديا. يتم إنشاء WIT عن طريق استخراج نصوص مختلفة متعددة مرتبطة بالصورة (على سبيل المثال ، كما هو موضح في الصورة أعلاه) من مقالات ويكيبيديا وروابط صورة ويكيميديا. ورافق ذلك تصفية صارمة للاحتفاظ فقط بمجموعات نص صور عالية الجودة.
تحتوي مجموعة البيانات الناتجة على أكثر من 37.6 مليون مجموعة نصية-مما يجعل أكبر مجموعة بيانات متعددة الوسائط (متوفرة للجمهور في وقت كتابة هذا التقرير) مع تغطية متعددة اللغات غير المسبقة-مع 12 كيلو+ أمثلة في كل من 108 لغة (53 لغة تحتوي على 100 كيلو متر+ نصية نصية).
| يكتب | يدرب | فال | امتحان | المجموع / الفريد |
|---|---|---|---|---|
| الصفوف / tuples | 37.13m | 261.8k | 210.7k | 37.6 م |
| صور فريدة | 11.4 م | 58 كيلو | 57K | 11.5 م |
| المرجع. نص | 16.9 م | 150k | 104k | 17.2m / 16.7m |
| attr. نص | 34.8 م | 193 كيلو | 200k | 35.2m / 10.9m |
| نص بديل | 5.3m | 29K | 29K | 5.4m / 5.3m |
| نصوص السياق | - | - | - | 119.8 م |
| نص الصورة | # لانغ | Uniq. الصور | # لانغ |
|---|---|---|---|
| المجموع> 1M | 9 | الصور> 1M | 6 |
| المجموع> 500 كيلو | 10 | الصور> 500k | 12 |
| المجموع> 100 كيلو | 36 | الصور> 100k | 35 |
| المجموع> 50k | 15 | الصور> 50k | 17 |
| المجموع> 14K | 38 | الصور> 13k | 38 |
نحن نعتقد أن مجموعة البيانات المتنوعة القوية ستساعد الباحثين في بناء نماذج متعددة اللغات متعددة الوسائط بشكل أفضل وفي تحديد تقنيات التعلم والتمثيل الأفضل التي تؤدي إلى تحسين نماذج التعلم الآلي في المهام الواقعية على البيانات اللغوية.
تتوفر مجموعة بيانات الطرافة الآن للتنزيل. يرجى التحقق من صفحة البيانات.
إذا كنت تستخدم مجموعة بيانات WIT ، فيمكنك الاستشهاد بعملنا على النحو التالي.
@inproceedings{10.1145/3404835.3463257,
author = {Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
title = {WIT: Wikipedia-Based Image Text Dataset for Multimodal Multilingual Machine Learning},
year = {2021},
isbn = {9781450380379},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3404835.3463257},
doi = {10.1145/3404835.3463257},
booktitle = {Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval},
pages = {2443–2449},
numpages = {7},
keywords = {dataset, multimodal, machine learning, wikipedia, multilingual, image-text retrieval, neural networks},
location = {Virtual Event, Canada},
series = {SIGIR '21}
}
هذه البيانات متوفرة ضمن ترخيص Creative Commons Attribution-ShareAlike 3.0 غير المبرر.
للحصول على معلومات بشأن ورقة الجدارية (متعددة الوسائط ، استرجاع المهام عبر اللغات) ورقة مقبولة في EMNLP 2021.
لأي أسئلة ، يرجى الاتصال بـ [email protected]. إلى أي أسئلة إلى المؤلف الأول ، Krishna ، يرجى الوصول عبر صفحتهم الشخصية Krishna2.com للاتصال بالاتصال.
إذا كانت مجموعة بيانات WIT مفيدة لك ، فيرجى الكتابة إلينا حول هذا الموضوع. سواء كان ذلك منشورًا للمدونة أو مشروعًا بحثيًا أو ورقة ، يسعدنا أن نتعرف عليها.