في 3 مارس 2025 ، أصدرت Tongyi Lingma رسميًا أحدث طراز استدلال لها ، QWEN2.5-Max ، والذي يوفر للمطورين القدرات القوية للبرمجة والقدرات الرياضية. يمثل إطلاق QWEN2.5-MAX اختراقًا كبيرًا آخر في تكنولوجيا الذكاء الاصطناعي في مجالات البرمجة والرياضيات. يعتمد النموذج على بيانات ما قبل التدريب التي تزيد عن 20 تريليون رمزًا ويتم دمجها مع نظام ما بعد التدريب المصمم بعناية ، مما يجعله إلى ارتفاعات جديدة في الأداء.
كان أداء Qwen2.5-Max جيدًا بشكل خاص في عدة معايير. على سبيل المثال ، في اختبارات مثل Arena-Hard و LiveBench و LiveCodeBench و GPQA-Diamond و QWEN2.5-MAX تتجاوز النماذج الرائدة الأخرى في هذه الصناعة ، بما في ذلك Deepseek V3 و GPT-4O و Claude-3.5-Sonnet. بالإضافة إلى ذلك ، في MMLU-PRO والتقييمات الأخرى ، أظهرت QWEN2.5-MAX أيضًا نتائج تنافسية للغاية ، مما يثبت قدرتها المتميزة في المهام المعقدة.

في مقارنة النموذج الأساسي ، تمت مقارنة QWEN2.5-MAX بشكل شامل مع Deepseek V3 و LLAMA-3.1-405B و QWEN2.5-72B. تظهر النتائج أن نموذج Tongyi Qianwen الأساسي يظهر مزايا كبيرة في معظم المعايير ، خاصة عند التعامل مع البرمجة المعقدة والمشاكل الرياضية ، تعمل QWEN2.5-MAX بشكل جيد.
تجدر الإشارة إلى أنه في أحدث قائمة اختبار أعمى من النماذج الكبيرة التي تصدرها منصة الاختبار الثلاثية المختبرة chatbot Arena ، تم تجاوز QWEN2.5-Max نماذج مثل Deepseek-V3 ، Open O1-Mini و Claude-3.5-Sonnet ، المرتبة السابعة في العالم برصيد 1332 نقطة ، لتصبح بطل الصين غير المبيد. فيما يتعلق بالقدرات الفردية مثل الرياضيات والبرمجة ، يحتل QWEN2.5-MAX المرتبة الأولى ، ومطالبات صلبة تحتل المرتبة الثانية. علق مسؤول Chatbot Arena أن QWEN2.5-Max من Alibaba كان أداءً قوياً في العديد من المجالات ، وخاصة في المجالات المهنية والتقنية مثل البرمجة والرياضيات والمطالبات الصعبة.
في الوقت الحاضر ، تم دمج QWEN2.5-MAX في Tongyi Lingcode ، ويمكن للمستخدمين تجربة إمكانيات البرمجة القوية من خلال تنزيل المكون الإضافي Tongyi Lingcode. هذا التكامل لا يوفر للمطورين أدوات أكثر كفاءة فحسب ، بل يفتح أيضًا إمكانيات جديدة لتطبيق تكنولوجيا الذكاء الاصطناعي.