أصدر معهد Zhiyuan للأبحاث مؤخرًا جيلًا جديدًا من النموذج الأساسي متعدد الوسائط Emu2، والذي حقق اختراقات كبيرة في قدرات التعلم السياقي متعدد الوسائط. من خلال التدريب المسبق متعدد الوسائط التوليدي واسع النطاق، يؤدي Emu2 أداءً جيدًا في مهام فهم متعددة الوسائط لعينات قليلة، متجاوزًا النماذج السائدة مثل Flamingo-80B وIDEFICS-80B، كما حقق أداءً جيدًا في فهم عدة عينات قليلة، الإجابة على الأسئلة المرئية وتحقيق الأداء الأمثل في مهام إنشاء الصور. يحتوي Emu2 على تطبيقين رئيسيين: Emu2-Chat وEmu2-Gen، اللذين يركزان على فهم تعليمات الصور والنصوص وإنشاء الصور/الفيديو على التوالي.
أصدر معهد Zhiyuan للأبحاث جيلًا جديدًا من النموذج الأساسي متعدد الوسائط Emu2، والذي يعزز بشكل كبير الاختراقات في قدرات التعلم السياقي متعدد الوسائط من خلال التدريب المسبق متعدد الوسائط التوليدي واسع النطاق. يعمل Emu2 بشكل جيد في مهام الفهم متعددة الوسائط ذات العينات القليلة، متجاوزًا النماذج الكبيرة السائدة متعددة الوسائط والمدربة مسبقًا Flamingo-80B وIDEFICS-80B. حقق Emu2 أداءً مثاليًا في فهم اللقطات القليلة المتعددة والإجابة على الأسئلة المرئية ومهام إنشاء الصور. يستطيع Emu2-Chat فهم التعليمات الرسومية والنصية بدقة لتحقيق إدراك أفضل للمعلومات وفهم النوايا والتخطيط لاتخاذ القرار. يمكن لـ Emu2-Gen قبول الصور والنصوص وتسلسلات الموضع المتداخلة كمدخلات لتحقيق إنشاء صور وفيديو مرن وقابل للتحكم وعالي الجودة. يعتمد Emu2 إطار عمل أبسط للنمذجة ويقوم بقياس النموذج إلى معلمات 37B. لمزيد من التفاصيل، يرجى الرجوع إلى رابط المشروع الصادر عن معهد Zhiyuan للأبحاث.بفضل أدائه القوي وإطاره الموجز، يوضح Emu2 أحدث التقدم في مجال الذكاء الاصطناعي متعدد الوسائط ويوفر أساسًا متينًا لتطوير التطبيقات متعددة الوسائط المستقبلية. إن الابتكار المستمر لمعهد Zhiyuan للأبحاث يستحق التطلع إليه.