أصدر معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي النموذج العالمي الأصلي متعدد الوسائط Emu3. يُظهر هذا النموذج أداءً رائعًا في مجالات إنشاء الصور والفيديو والنصوص، متجاوزًا العديد من النماذج مفتوحة المصدر الحالية. استنادًا إلى تقنية فريدة من نوعها للتنبؤ بالرمز المميز التالي، يمكن لـ Emu3 تحقيق مهام "من أي مكان إلى أي مكان" دون الاعتماد على نماذج الانتشار أو الأساليب المركبة، مما يوفر نموذجًا جديدًا لأبحاث الذكاء الاصطناعي متعدد الوسائط. سيأخذك محرر Downcodes إلى فهم متعمق لابتكارات Emu3 ومواردها مفتوحة المصدر.
أعلن معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي عن إطلاق النموذج العالمي الأصلي متعدد الوسائط Emu3. يعتمد هذا النموذج على تقنية التنبؤ بالرمز المميز التالية ويمكنه فهم البيانات وتوليدها بثلاث طرق: النص والصورة والفيديو دون الاعتماد على نماذج الانتشار أو طرق التجميع. يتفوق Emu3 على النماذج مفتوحة المصدر الحالية المعروفة، مثل SDXL وLLaVA وOpenSora وما إلى ذلك، مما يعرض أداءً ممتازًا في مهام مثل إنشاء الصور وإنشاء الفيديو وفهم اللغة المرئية.

يوجد في قلب نموذج Emu3 أداة رمزية مرئية قوية تعمل على تحويل مقاطع الفيديو والصور إلى رموز مميزة منفصلة يمكن إدخالها في النموذج جنبًا إلى جنب مع الرموز المميزة المنفصلة التي يتم إخراجها بواسطة أداة رمز النص. يمكن تحويل الرموز المميزة المنفصلة التي يخرجها النموذج إلى نصوص وصور ومقاطع فيديو، مما يوفر نموذج بحث موحد للمهام "من أي شيء إلى أي شخص". بالإضافة إلى ذلك، تتيح مرونة إطار التنبؤ بالرمز المميز التالي لـ Emu3 إمكانية تطبيق تحسين التفضيل المباشر (DPO) بسلاسة على توليد الرؤية الانحدارية الذاتية، مما يجعل النموذج متوافقًا مع التفضيلات البشرية.

تظهر نتائج بحث Emu3 أن التنبؤ بالرمز التالي يمكن أن يكون بمثابة نموذج قوي للنماذج متعددة الوسائط، مما يتيح التعلم متعدد الوسائط على نطاق واسع بما يتجاوز اللغة نفسها وتحقيق أداء متقدم في المهام متعددة الوسائط. من خلال دمج التصميم المعقد متعدد الوسائط في الرمز المميز نفسه، يفتح Emu3 إمكانات هائلة للتدريب والاستدلال على نطاق واسع. يوفر هذا الإنجاز طريقًا واعدًا لبناء الذكاء الاصطناعي العام متعدد الوسائط.
في الوقت الحاضر، أصبحت التقنيات والنماذج الرئيسية لـ Emu3 مفتوحة المصدر، بما في ذلك نموذج الدردشة ونموذج التوليد المعالج بواسطة SFT، بالإضافة إلى كود تدريب SFT المقابل، لتسهيل البحث اللاحق وبناء المجتمع والتكامل.
الكود : https://github.com/baaivision/Emu3
صفحة المشروع : https://emu.baai.ac.cn/
الموديل: https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
يوفر الإصدار المفتوح المصدر لـ Emu3 موارد قيمة لأبحاث الذكاء الاصطناعي متعدد الوسائط، ونحن نتطلع إلى تعزيز تطوير الذكاء الاصطناعي العام وخلق المزيد من الإمكانيات في المستقبل. لا تتردد في زيارة الروابط ذات الصلة لمزيد من المعلومات.