في الآونة الأخيرة ، تعاون فريق Microsoft Research مع باحثين من جامعات متعددة لإطلاق نموذج من الذكاء الاصطناعى متعدد الوسائط يسمى "Magma". الهدف من هذا النموذج هو أداء المهام المعقدة في البيئات الرقمية والمادية من خلال دمج أنواع البيانات المتعددة مثل الصور والنصوص والفيديو. مع التطور السريع للتكنولوجيا ، أصبح عوامل الذكاء الاصطناعى متعددة الوسائط أكثر فأكثر استخدامًا في الروبوتات والمساعدين الظاهريين وأتمتة واجهة المستخدم.
عادةً ما تركز أنظمة الذكاء الاصطناعى السابقة على حقل واحد ، مثل فهم لغة الرؤية أو التشغيل الآلي ، مما يجعل من الصعب دمج هاتين القدرات في نموذج موحد. على الرغم من أن العديد من النماذج الحالية تعمل بشكل جيد في مجالات محددة ، إلا أنها تتمتع بقدرات تعميم سيئة في سيناريوهات التطبيق المختلفة. على سبيل المثال ، تعمل نماذج PIX2ACT و WebGUM بشكل جيد في التنقل في واجهة المستخدم ، في حين أن OpenVLA و RT-2 أكثر ملاءمة للتلاعب الآلي ، لكنها غالبًا ما تتطلب التدريب بشكل منفصل ويصعب عبور الحدود بين البيئات الرقمية والفيزيائية.
إن إطلاق نموذج "الصهارة" هو بالضبط التغلب على هذه القيود. إنه يدمج الفهم متعدد الوسائط ، وتحديد المواقع والتخطيط ، من خلال إدخال طريقة تدريب قوية لتمكين وكلاء الذكاء الاصطناعى من العمل بسلاسة في مجموعة متنوعة من البيئات. تحتوي مجموعة بيانات تدريب Magma على 39 مليون عينة تغطي الصور ومقاطع الفيديو ومسارات حركة الروبوت. بالإضافة إلى ذلك ، يتبنى النموذج تقنيتين مبتكرين: مجموعة العلامات (SOM) و Trace of Mark (TOM). السابق يمكّن النموذج من وضع علامة على الكائنات المرئية القابلة للتنفيذ في بيئة واجهة المستخدم ، في حين أن الأخير يمكّنه من تتبع حركة الكائنات بمرور الوقت ، وبالتالي تحسين قدرات التخطيط للإجراءات المستقبلية.
تعتمد "Magma" بنية التعلم العميق المتقدم وتقنيات التدريب على نطاق واسع لتحسين أدائها في مجالات متعددة. يستخدم النموذج العمود الفقري المرئي لـ Convnext-XXL لمعالجة الصور ومقاطع الفيديو ، ونموذج لغة LLAMA-3-8B مسؤول عن معالجة إدخال النص. تتيح هذه البنية "الصهارة" من دمج الرؤية واللغة والعمل بكفاءة. بعد التدريب الشامل ، حقق النموذج نتائج ممتازة على مهام متعددة ، مما يدل على فهم قوي متعدد الوسائط وقدرات التفكير المكاني.
بوابة المشروع: https://microsoft.github.io/magma/
النقاط الرئيسية:
تم تدريب نموذج الصهارة في عينات متعددة ولديه قدرات تعليمية متعددة الوسائط قوية.
يدمج النموذج بنجاح الرؤية واللغة والعمل ، والتغلب على قيود نماذج الذكاء الاصطناعى الحالية.
كان أداء Magma جيدًا في العديد من المعايير ، مما يدل على تعميم قوي وقدرات ممتازة في اتخاذ القرارات والتنفيذ.