أعلن Kunlun Wanwei رسميًا اليوم أن نموذج الاستدلال متعدد الوسائط Skywork R1V هو مفتوح المصدر رسميًا! هذا ليس فقط أول نموذج للاستدلال متعدد الوسائط في الصين في هذا المجال ، ولكنه يمثل أيضًا خطوة بارزة لقوة الذكاء الاصطناعى في الصين في مجال الفهم والتفاهم متعدد الوسائط! من الآن فصاعدًا ، ستكون الأوزان النموذجية والتقارير الفنية مفتوحة تمامًا للعالم الخارجي!
تخيل أن نموذج الذكاء الاصطناعى لا يمكنه فهم الصور فحسب ، بل أيضًا أداء منطقًا منطقيًا مثل البشر وحل المشكلات المرئية المعقدة - لم يعد هذا مشهدًا في أفلام الخيال العلمي ، ولكن القدرة على تنفيذ Skywork R1V! هذا النموذج يشبه "Solmes في عالم الذكاء الاصطناعي". إنه جيد في تجريد الخيوط وفك تشفير المعنى العميق من المعلومات البصرية الضخمة من خلال التحليل المنطقي متعدد الخطوات ، وأخيراً يعطي إجابة دقيقة. سواء أكان حل الألغاز المنطقية المرئية ، أو حل مشاكل الرياضيات البصرية الصعبة ، أو تحليل الظواهر العلمية في الصور ، أو حتى المساعدة في الاستنتاجات التشخيصية للصور الطبية ، يمكن أن تظهر Skywork R1V قوة مذهلة.

لقياس "معدل الذكاء" لنموذج الذكاء الاصطناعي ، فإن البيانات هي الأكثر إقناعًا! فيما يتعلق بقدرة التفكير المنطق ، سجل Skywork R1V 94.0 و 72.0 في MATH500 الموثوق والمعايير AIME على التوالي! هذا يعني أن Skywork R1V يمكنه القيام بذلك بسهولة سواء كان يحل المشكلات الرياضية المعقدة أو إجراء منطق منطقي صارم. الأمر الأكثر إثارة للدهشة هو أنه نجح في "تطعيم" قدرتها القوية على التفكير في مجال الرؤية ، وحققت درجات عالية من 69 و 67.5 في اختبارات مرجعية للتفكير البصري مثل MMMU و Mathvista! تثبت هذه البيانات المتشددة مباشرة أن Skywork R1V لديها أعلى المنطق المنطقي والتحليل الرياضي!

صرح Kunlun Wanwei بفخر أنه خلف نموذج Skywork R1V ، هناك ثلاثة ابتكارات تكنولوجية رئيسية:
الأول هو الترحيل الفعال متعدد الوسائط لقدرات التفكير النصية. اتبع فريق Kunlun Wanwei مقاربة فريدة من نوعها وشرف Skywork-VL البصري ، دون إنفاق مبالغ ضخمة من المال لإعادة تدريب نموذج اللغة والتشفير البصري. تمامًا مثل "التحول العظيم للعالم" ، فقد نقلت تمامًا قدرتها على التفكير النصية الأصلية في المهام البصرية ، ولم تؤثر على مهاراتها في التفكير النصية على الإطلاق!
والثاني هو التدريب الهجين متعدد الوسائط (SFT+GRPO التكراري). طريقة التدريب هذه مثل تغذية النموذج "وجبة مغذية مختلطة". من خلال المزيج الذكي من الإشراف التكراري ، يتم توافق التعلم المعزز على GRPO ، ويتم محاذاة تمثيل النص البصري على مراحل واستراتيجية ، كما أن الانصهار الفعال للمهام عبر الوسائط قد حققت أيضًا تقدمًا كبيرًا! في اختبارات MMMU و Mathvista القياسية ، يمكن أن يكون أداء Skywork R1V قابلاً للمقارنة مع نموذج مصادر مغلقة على نطاق واسع!
أخيرًا ، تقطير سلسلة التفكير الطول التكيفي. اقترح فريق Kunlun Wanwei مبتكرًا آلية "الفرامل الذكية". يمكن للنموذج ضبط طول سلسلة الاستدلال بشكل متكيف وفقًا لتعقيد النص المرئي لتجنب "التفكير" ، وبالتالي تحسين كفاءة الاستدلال مع ضمان دقة المنطق! بالإضافة إلى ذلك ، مع استراتيجية التوحيد الذاتي متعدد المراحل ، يتم تحسين توليد البيانات وجودة الاستدلال للنموذج إلى مستوى أعلى ، وهو أكثر راحة في المهام المتعددة الوسائط المعقدة!

سيوفر المصدر المفتوح لـ Skywork R1V بلا شك "سلاح" قوي متعدد الوسائط للباحثين والمطورين في الصين وحتى العالم. لن يؤدي ظهورها إلى تسريع ابتكار وتطبيق تقنية AI متعددة الوسائط فحسب ، بل سيعزز أيضًا التكامل العميق لتكنولوجيا الذكاء الاصطناعي في جميع مناحي الحياة ، مما يفتح مستقبلًا أكثر ذكاءً وأفضل لنا!