في السنوات الأخيرة ، حققت نماذج اللغة الكبيرة (LLMS) تقدمًا رائعًا في مجال الذكاء الاصطناعي ، وخاصة في الانصهار متعدد الوسائط. اقترح فريق مشترك من جامعة Huazhong للعلوم والتكنولوجيا ، و Bytedance ، وجامعة هونغ كونغ مؤخرًا إطارًا مبتكرًا لتوليد متعدد الوسائط - سائل ، بهدف حل حدود النماذج المتعددة الوسائط الرئيسية الحالية في المعالجة البصرية. يمثل ظهور هذه التكنولوجيا مزيد من التطوير للذكاء الاصطناعي في المجال متعدد الوسائط.
غالبًا ما تعتمد النماذج التقليدية متعددة الوسائط على وحدات الرؤية الخارجية المعقدة ، والتي لا تزيد من تعقيد النظام فحسب ، بل تحد أيضًا من قابلية التوسع والمرونة. ابتكار السائل هو أنه يتبنى VQGAN كجزء من كلمات الكلمات ويتخلى عن اعتماده على المكونات البصرية الخارجية. من خلال ترميز الصورة إلى الرموز المرئية المنفصلة ، يمكّن السائل النموذج من مشاركة قائمة الكلمات مباشرةً مع الرموز النصية ، وبالتالي تحقيق إمكانيات "الأصلية" المرئية وقدرات التوليد. هذا التصميم يبسط بشكل كبير هيكل النموذج مع تحسين قابلية التوسع.
وجدت الدراسة أن السائل لا يقلل بشكل كبير من تكاليف التدريب ، ولكنه يكشف أيضًا عن قواعد مقياس القدرات المتعددة الوسائط و LLM. أجرى فريق البحث تجارب على LLMs بأحجام مختلفة (من 0.5B إلى 32B). أظهرت النتائج أنه مع توسيع نطاق النموذج ، يتبع أداء وجودة توليد مهام التوليد البصري نمط تحجيم يتوافق مع مهام اللغة. الأمر الأكثر إثارة هو أن هناك علاقة تيسير ثنائية الاتجاه بين الفهم البصري والمهام التوليدية ، أي أن الاثنين يمكن أن يحققوا تحسين المفصل من خلال مساحة تمثيل مشترك. يوفر هذا الاكتشاف أساسًا نظريًا مهمًا لتصميم النماذج متعددة الوسائط المستقبلية.
يجسد تصميم Liquid بشكل كامل بساطتها ، وعلاج الصور والنص بالتساوي ، واعتماد إطار معالجة موحد. أثناء عملية البناء ، استخدم فريق البحث بيانات نصية 30M وبيانات نصية 30 مترًا لوضع الأساس للتدريب متعدد الوسائط للنموذج. تظهر النتائج التجريبية النهائية أن السائل له أداء ممتاز في الفهم متعدد الوسائط ، وتوليد الصور ، ومهام النص العادية ، والاتساق الدلالي بين الصور الناتجة والنص أعلى بكثير من النماذج التلقائية الأخرى. توضح هذه النتيجة الإمكانات الكبيرة للسائل في التطبيقات العملية.
يوفر اقتراح Liquid أفكارًا جديدة للتصميم المعماري للذكاء العام متعدد الوسائط ، مما يشير إلى أن الذكاء الاصطناعي قد يبدأ في تطور أكثر كفاءة ومرونة في مستقبل الانصهار متعدد الوسائط. إن نجاح هذه التكنولوجيا لا يعزز الأبحاث في مجال متعدد الوسائط فحسب ، بل يفتح أيضًا إمكانيات جديدة لتطبيق الذكاء الاصطناعي في سيناريوهات أكثر عملية.
رابط الورق: https://arxiv.org/pdf/2412.04332