أصدر فريق DeepMind من Google مؤخرًا مجموعة بيانات WebLI-100B ، والتي تحتوي على 100 مليار زوج من نص الصور ، مما يمثل اختراقًا كبيرًا في مجال نماذج اللغة البصرية للذكاء الاصطناعي. الهدف الأساسي لمجموعة البيانات هذه هو تحسين أداء نماذج الذكاء الاصطناعى بشكل كبير في التعامل مع المهام الثقافية والمتعددة اللغات المختلفة من خلال موارد البيانات الغنية ، وبالتالي تعزيز شمولية وتنوع تقنيات الذكاء الاصطناعي.

نماذج اللغة المرئية (VLMs) عبارة عن جسور تربط الصور والنصوص ، وتستخدم على نطاق واسع في مهام مثل توليد الترجمة الفرعية والأسئلة المرئية والإجابات. يعتمد أداء هذه النماذج إلى حد كبير على جودة وكمية بيانات التدريب. في الماضي ، اعتمد الباحثون في المقام الأول على مجموعات البيانات الكبيرة مثل التسميات التوضيحية المفاهيمية و Laion. يطلب.
إن إطلاق مجموعة بيانات WebLI-100B هو بالضبط لحل مشكلة عنق الزجاجة هذه. على عكس مجموعات البيانات السابقة ، لم يعد WebLI-100B يتبنى آلية تصفية صارمة ، والتي غالباً ما تلغي التفاصيل الثقافية المهمة. بدلاً من ذلك ، يركز بشكل أكبر على توسيع نطاق تغطية البيانات ، وخاصة في مجالات مثل اللغة المنخفضة الموارد والتعبيرات الثقافية المتنوعة. أجرى فريق البحث النموذج قبل التدريب على مجموعات فرعية مختلفة من WebLI-100B لتحليل بعمق تأثير مقياس البيانات على أداء النموذج.
تُظهر النتائج التجريبية أن النماذج المدربة مع مجموعة بيانات WebLI-100B الكاملة كانت أفضل بكثير في المهام الثقافية والمتعددة اللغات من تلك المدربة على مجموعات البيانات الأصغر ، حتى مع نفس موارد الحوسبة. بالإضافة إلى ذلك ، وجدت الدراسة أن توسيع مجموعة البيانات من 10 ب إلى 100 ب كان له تأثير أقل على المعايير التي تركز على الغرب ، ولكنها جلبت تحسينات كبيرة في مهام التنوع الثقافي واسترجاع اللغة منخفضة الموارد.
ورقة: https://arxiv.org/abs/2502.07617
النقاط الرئيسية:
** مجموعة بيانات جديدة **: WebLi-100B عبارة عن مجموعة بيانات ضخمة تحتوي على 100 مليار زوج نص صورة ، مصممة لتعزيز التنوع الثقافي والتعدد في نماذج الذكاء الاصطناعي.
** تحسين أداء النموذج **: نماذج مدربة مع مجموعة بيانات WebLI-100B أداء أفضل من مجموعات البيانات السابقة في المهام متعددة الثقافات ومتعددة اللغات.
** تقليل التحيز **: تتجنب مجموعة بيانات WebLI-100B التصفية الصارمة ، وتحتفظ بمزيد من التفاصيل الثقافية ، ويحسن شمولية ودقة النموذج.