في الآونة الأخيرة ، أصدرت Google نموذجًا جديدًا لنسخة الرؤية (VLM) يسمى Paligemma2mix ، وهو ابتكار يمثل اختراقًا كبيرًا في تكنولوجيا الذكاء الاصطناعي في مجال معالجة الصور والنصوص. لا يمكن لـ PALIGEMMA2MIX معالجة المعلومات المرئية وإدخال النص في نفس الوقت فحسب ، بل يمكنها أيضًا إنشاء المخرجات المقابلة وفقًا للمتطلبات ، مما يوفر دعمًا فنيًا قويًا لمهام متعددة.
يحتوي Paligemma2mix على وظائف شاملة للغاية ، تغطي مجموعة متنوعة من مهام اللغة البصرية مثل وصف الصورة ، والتعرف على الأحرف البصرية (OCR) ، وسؤال الصورة والإجابة ، واكتشاف الكائنات وتجزئة الصور. سواء كان من الممكن للمطورين أو الباحثين استخدام النموذج مباشرة من خلال نقاط التفتيش قبل التدريب ، أو ضبطها وفقًا لاحتياجات محددة ، لتلبية احتياجات سيناريوهات التطبيق المختلفة.

كنسخة محسّنة من Paligemma2 ، تم تعديل Paligemma2mix خصيصًا للمهام الهجينة ، بهدف تزويد المطورين بتجربة استكشاف أكثر ملاءمة. يوفر النموذج ثلاثة مقاييس معلمات ، بما في ذلك 3B (3 مليارات من المعلمات) و 10 ب (10 مليارات معلمة) و 28B (28 مليار معلمة) ، ويدعم قرارين: 224 بكسل و 448 بكسل ، والتي يمكن أن تتكيف بمرونة مع موارد الحوسبة المختلفة ومتطلبات المهمة.
تتضمن المعالم الوظيفية الأساسية لـ Paligemma2mix وصف الصورة ، والتعرف على الأحرف البصرية (OCR) ، وأسئلة الصورة والإجابة والكشف عن الكائن. فيما يتعلق بوصف الصورة ، فإن النموذج قادر على إنشاء أوصاف قصيرة أو طويلة مفصلة ، مثل تحديد صورة بقرة تقف على الشاطئ وتوفير أوصاف غنية. من حيث التعرف الضوئي على الحروف ، يمكنه استخراج النص من الصور ، وتحديد الشعارات والعلامات ومحتوى المستندات ، مما يوفر راحة كبيرة لاستخراج المعلومات. بالإضافة إلى ذلك ، يمكن للمستخدمين أيضًا تحميل الصور وطرح الأسئلة. سيقوم النموذج بتحليل الصور وإعطاء إجابات دقيقة ، ويمكنه أيضًا تحديد كائنات محددة في الصورة ، مثل الحيوانات والمركبات ، إلخ.
تجدر الإشارة إلى أنه يمكن للمطورين تنزيل الأوزان المختلطة لـ Paligemma2mix من خلال منصات الوجه Kaggle و Ungging لتسهيل المزيد من التجارب والتطوير. إذا كنت مهتمًا بهذا النموذج ، فيمكنك استكشاف من خلال منصة العرض التوضيحي لـ Hugging Face لاكتساب نظرة ثاقبة على ميزاته القوية وإمكانات التطبيق.
مع إطلاق Paligemma2mix ، اتخذت أبحاث Google في مجال نماذج لغة الرؤية خطوة مهمة أخرى. لا يوضح هذا النموذج فقط الإمكانات الضخمة لتكنولوجيا الذكاء الاصطناعي ، بل يوفر أيضًا المزيد من الاحتمالات للتطبيقات العملية المستقبلية. نتطلع إلى أن تكون هذه التكنولوجيا قادرة على إظهار قيمتها في المزيد من الحقول وتعزيز تطوير تكنولوجيا الذكاء الاصطناعي الإضافية.
التقرير الفني: https://arxiv.org/abs/2412.03555