تقدم هذه المقالة أحدث طراز عالي الدقة للذكاء الاصطناعي Griffon v2. يجمع النموذج بين الإشارات النصية والمرئية، ويتيح الرجوع إلى العناصر بشكل مرن، ويعزز الإدراك متعدد الوسائط من خلال أجهزة العرض المختزلة. في مهام مثل إنشاء التعبير المرجعي، وتحديد موضع العبارة، وفهم التعبير المرجعي، يتفوق Griffon v2 على نماذج الخبراء، ويظهر بشكل خاص مزايا كبيرة في بنية المرجع البصري اللغوي، واكتشاف الأهداف، وعد الكائنات. يمثل ظهوره تقدمًا مهمًا في الفهم متعدد الوسائط وتطبيق نماذج الذكاء الاصطناعي.
يجمع أحدث نموذج عالي الدقة للذكاء الاصطناعي، Griffon v2، بين الإشارات النصية والمرئية لتوفير مرجع مرن للكائنات. استخدم الفريق أجهزة عرض مختزلة لتعزيز قدرات الإدراك متعدد الوسائط. يؤدي النموذج أداءً جيدًا في إنشاء تعبيرات الاقتباس، وتوطين العبارة، ومهام فهم تعبيرات الاقتباس، متفوقًا على النماذج المتخصصة. يحتوي على بنية مرجعية بصرية لغوية ويظهر التفوق في اكتشاف الأهداف وعد الأشياء.
يوفر اختراق نموذج Griffon v2 في الفهم متعدد الوسائط إمكانيات أوسع لتطبيقات الذكاء الاصطناعي المستقبلية، كما يشير أدائه المتفوق في اكتشاف الأهداف وإحصاء الكائنات إلى إمكاناته الهائلة في التطبيقات العملية. ومن المعتقد أن المزيد من التطبيقات المبتكرة المبنية على هذا النموذج ستظهر في المستقبل.