أصدر مختبر Shanghai AI مؤخرًا نموذجًا لغويًا متعدد الوسائط يسمى Internlm-Xcomposer -2.5 (IXC-2.5 لفترة قصيرة) ، وقد اجتذب هذا المشروع مفتوح المصدر اهتمامًا واسع النطاق في مجال الذكاء الاصطناعي. لم يحقق هذا النموذج العديد من الاختراقات في التكنولوجيا فحسب ، بل أظهر أيضًا إمكانات قوية في التطبيقات العملية ، وخاصة في فهم الصور عالية الدقة ، وفهم الفيديو الدقيق والحوار متعدد الجولات.

لقد ملأ إصدار IXC-2.5 الفجوة في مجال LLM متعدد الوسائط في الصين ، وخاصة في إنتاج صفحات الويب وتوليد مقالات رسومات مختلطة ونص. سواء كان تصميم الويب أو توليد المحتوى الرسومي ، يمكن لـ IXC-2.5 توفير حلول فعالة ودقيقة ، مما يؤدي إلى تحسين الكفاءة الإبداعية بشكل كبير.
تتضمن الميزات الأساسية لنموذج IXC-2.5:
قدرة معالجة السياق الطويلة: يدعم النموذج إدخال علامة 24K ، ويمكن توسيعه إلى 96 ألف ، مما يعني أنه يمكنه التعامل مع مدخلات النص والصور الطويلة للغاية ، مما يوفر للمستخدمين مساحة أكثر إبداعًا. سواء كانت مستندات معقدة أو كميات كبيرة من بيانات الصورة ، يمكن لـ IXC-2.5 التعامل معها بسهولة.
القدرات المرئية المتنوعة: لا يدعم IXC-2.5 فهم الصور عالية الدقة فحسب ، بل يتيح أيضًا فهم الفيديو الدقيق والحوار متعدد الجولات. تعد قدرة المعالجة المتعددة الوسائط هذه نادرة للغاية في النماذج السابقة ، خاصة فيما يتعلق بفهم الفيديو.
إمكانية توليد قوية: يمكن لـ IXC-2.5 إنشاء صفحات ويب ومقالات رسومية عالية الجودة ، مع أخذ مجموعة من النصوص والصور إلى مستوى جديد. سواء كان تصميم مواقع الويب أو توليد مقال مختلط ، يمكن لـ IXC-2.5 توفير إخراج عالي الجودة لتلبية احتياجات السيناريوهات المختلفة.
Advanced Model Architecture: يستخدم IXC-2.5 تشفير الرؤية الخفيفة ، ونماذج اللغة الكبيرة وبعض تقنيات محاذاة LORA. خاصة عند التعامل مع البيانات المتعددة الوسائط المعقدة ، يوضح IXC-2.5 كفاءة ممتازة.
من بين 28 معايير ، تفوقت IXC-2.5 على نموذج مفتوح المصدر الحالي في 16 اختبارًا ، وكان الأداء في 16 اختبارًا آخر قريبًا من GPT-4V و Gemini Pro. تثبت نتيجة الاختبار هذه القوة القوية لـ IXC-2.5 ، وخاصة في مهام مثل فهم الفيديو ، وفهم الصورة عالية الدقة ، وجولات متعددة من الحوارات متعددة الصور والأسئلة المرئية العامة والأجوبة. القدرة التنافسية.
يتألف فريق البحث والتطوير في IXC-2.5 بشكل مشترك من مختبر شنغهاي للذكاء الاصطناعي ، وجامعة هونغ كونغ الصينية ، ومجموعة التكنولوجيا في وقت الحواس وجامعة تسينغهوا. يتمثل التصميم الأصلي لهذا النموذج في دعم إدخال وإخراج السياق الطويل للتعامل مع مهام التصوير النصية المعقدة بشكل متزايد. خلال مرحلة ما قبل التدريب ، يمتد IXC-2.5 نافذة السياق إلى 96 كيلو من خلال ترميز الموضع ، مما يدل على إمكانيات متميزة في تفاعل الحواسبات البشرية وإنشاء المحتوى.
فيما يتعلق بمعالجة الصور ، تعتمد IXC-2.5 استراتيجية تجزئة الصور الديناميكية الموحدة ، والتي يمكن أن تتكيف مع صور أي دقة ونسبة عرض إلى الارتفاع. فيما يتعلق بمعالجة الفيديو ، يمكن أن يقوم بصق الإطارات في الفيديو على طول حواف قصيرة لتشكيل صور عالية الدقة مع الحفاظ على فهرس الإطارات لتوفير علاقات زمنية. هذا النهج يجعل IXC-2.5 أداء جيدا في مهام فهم الفيديو.
بالإضافة إلى ذلك ، تقوم IXC-2.5 أيضًا بتوسيع تطبيقها في توليد صفحات الويب ، مما يسمح له بإنشاء صفحات ويب تلقائيًا بناءً على لقطات مرئية أو تعليمات مجانية أو مستندات استئناف. فيما يتعلق بإنشاء مقال الصورة النصية ، تقترح IXC-2.5 عملية قابلة للتطوير من خلال الجمع بين تقنيات متعددة لإنشاء مقالات صورة نصية عالية الجودة ومستقرة.
المصدر المفتوح لـ IXC-2.5 ليس مجرد قفزة تكنولوجية ، ولكن أيضًا مساهمة كبيرة في مجال الذكاء الاصطناعي بأكمله. يتيح لنا رؤية الإمكانيات اللانهائية لـ LLM متعددة الوسائط ، كما أنها تفتح مسارات جديدة لتطبيقات AI المستقبلية. سواء أكان إنشاء محتوى أو تصميم الويب أو معالجة البيانات متعددة الوسائط ، ستصبح IXC-2.5 أداة مهمة في تطبيقات الذكاء الاصطناعي المستقبلي.
عنوان المشروع: https://top.aibase.com/tool/internlm-xcomposer-2-5
عنوان الورق: https://arxiv.org/pdf/2407.03320