في السنوات الأخيرة، حققت نماذج اللغة متعددة الوسائط واسعة النطاق تقدمًا كبيرًا في مجال الذكاء الاصطناعي. سيقدم محرر Downcodes اليوم نموذجًا يسمى ORYX، والذي تم تطويره بشكل مشترك من قبل باحثين من جامعة تسينغهوا وجامعة تينسنت وجامعة نانيانغ التكنولوجية، وقد أظهر قدرات رائعة في مجال المعالجة البصرية. إن ORYX ليس مجرد نظام بسيط للتعرف على الصور، بل يمكنه فهم العلاقة المكانية والزمانية في الصور ومقاطع الفيديو والمشاهد ثلاثية الأبعاد، ويمكنه حتى تمييز القصة وراء المحتوى مثل البشر المعالجة البصرية. دعونا نلقي نظرة فاحصة على ما يجعل ORYX فريدة من نوعها.
اليوم، مع التطور السريع للذكاء الاصطناعي، يعمل نموذج لغة متعدد الوسائط وواسع النطاق يسمى ORYX على تغيير فهمنا لقدرة الذكاء الاصطناعي على فهم العالم المرئي بهدوء. يمكن تسمية نظام الذكاء الاصطناعي هذا، الذي تم تطويره بشكل مشترك من قبل باحثين من جامعة تسينغهوا وجامعة تينسنت وجامعة نانيانغ التكنولوجية، بالمحول في مجال المعالجة البصرية.
ORYX، الاسم الكامل لنماذج Oryx Multi-Modal Large Language Models، هو نموذج ذكاء اصطناعي مصمم خصيصًا لمعالجة الفهم المكاني والزماني للصور ومقاطع الفيديو والمشاهد ثلاثية الأبعاد. وتتمثل ميزتها الأساسية في أنها لا تستطيع فهم المحتوى المرئي مثل البشر فحسب، بل يمكنها أيضًا فهم الروابط بين المحتوى والقصص التي تقف وراءه.

إحدى أبرز ميزات نظام الذكاء الاصطناعي هذا هي قدرته على معالجة المدخلات المرئية بأي دقة. سواء كان الأمر يتعلق بصور قديمة ضبابية أو مقاطع فيديو عالية الدقة، يمكن لـ ORYX التعامل معها بسهولة. ويعود الفضل في ذلك إلى نموذج OryxViT المدرّب مسبقًا، والذي يمكنه تحويل الصور ذات الدقة المختلفة إلى تنسيق موحد يمكن فهمه بواسطة الذكاء الاصطناعي.
والأكثر إثارة للدهشة هو قدرات الضغط الديناميكية التي يتمتع بها ORYX. وفي مواجهة إدخال الفيديو طويل الأمد، يمكنه ضغط المعلومات بذكاء والاحتفاظ بالمحتوى الرئيسي دون تشويه. إنه مثل تحويل كتاب ثقيل إلى بطاقة ملاحظات غنية، والتي لا تحتفظ بالمعلومات الأساسية فحسب، بل تعمل أيضًا على تحسين كفاءة المعالجة بشكل كبير.

يعتمد مبدأ عمل ORYX بشكل أساسي على مكونين أساسيين: جهاز التشفير المرئي OryxViT ووحدة الضغط الديناميكي. الأول مسؤول عن معالجة المدخلات المرئية المتنوعة، بينما يضمن الأخير إمكانية معالجة البيانات ذات السعة الكبيرة مثل مقاطع الفيديو طويلة المدى بكفاءة.
وفي التطبيقات العملية، أظهر ORYX إمكانات مذهلة. ولا يقتصر الأمر على فهم محتوى الفيديو بعمق، بما في ذلك الكائنات والمؤامرات والإجراءات، بل يمكنه أيضًا فهم موضع الكائنات وعلاقتها بدقة في الفضاء ثلاثي الأبعاد. توفر قدرة الفهم البصري الشاملة هذه إمكانيات غير محدودة للتفاعل المستقبلي بين الإنسان والحاسوب، والمراقبة الذكية، والقيادة الذاتية، وغيرها من المجالات.
ومن الجدير بالذكر أن أداء ORYX كان جيدًا في العديد من معايير اللغة المرئية، خاصة في الفهم المكاني والزماني للصور ومقاطع الفيديو والبيانات ثلاثية الأبعاد متعددة العرض، مما أظهر مزايا رائدة.
لا يكمن ابتكار ORYX في قدرات المعالجة القوية فحسب، بل أيضًا في أنه يفتح نموذجًا جديدًا للفهم البصري للذكاء الاصطناعي. يمكنه معالجة الإدخال المرئي بدقة أصلية مع معالجة مقاطع الفيديو الطويلة بكفاءة من خلال تقنية الضغط الديناميكي، وهذا النوع من المرونة والكفاءة يصعب تحقيقه بواسطة نماذج الذكاء الاصطناعي الأخرى.
مع استمرار تقدم التكنولوجيا، من المتوقع أن تلعب ORYX دورًا أكثر أهمية في مجال الذكاء الاصطناعي المستقبلي. لن يساعد ذلك الآلات على فهم عالمنا البصري بشكل أفضل فحسب، بل قد يوفر أيضًا أفكارًا جديدة لمحاكاة العمليات المعرفية البشرية.
عنوان الورقة: https://arxiv.org/pdf/2409.12961
لقد جلبت قدرات ORYX المتعددة الوسائط وأساليب المعالجة الفعالة إمكانيات جديدة إلى مجال رؤية الذكاء الاصطناعي، ويستحق تطويرها المستقبلي التطلع إليه. يعتقد محرر Downcodes أنه مع استمرار نضج التكنولوجيا، ستلعب ORYX دورًا مهمًا في المزيد من المجالات وتعزيز التقدم المستمر لتكنولوجيا الذكاء الاصطناعي.