يتصدر Ali Qwen2-72B قائمة HELM: الأداء يفوق Llama3-70B

الكاتب：Eve Cole وقت التحديث：2025-02-23 23:00:03

أصدرت جامعة ستانفورد مؤخرًا أحدث نتائج قائمة تقييم النماذج الكبيرة HELM MMLU، والتي جذبت اهتمامًا واسع النطاق في الصناعة. بفضل معايير التقييم الصارمة وعملية التقييم الشفافة، توفر هذه القائمة مرجعًا موثوقًا لتقييم أداء النماذج الكبيرة. وتظهر نتائج القائمة أن نموذج Tongyi Qianwen Qwen2-72B الخاص بشركة علي بابا يبرز بين العديد من النماذج وقد حقق نتائج مبهرة، مما يدل على التقدم الكبير الذي حققته تكنولوجيا النماذج الكبيرة في الصين.

في الآونة الأخيرة، أصدرت قائمة تقييم النماذج الكبيرة لجامعة ستانفورد HELM MMLU أحدث النتائج. نشر بيرسي ليانغ، مدير مركز أبحاث النماذج الأساسية في جامعة ستانفورد، مقالًا يشير فيه إلى أن نموذج Tongyi Qianwen Qwen2-72B التابع لشركة علي بابا قد تجاوز Llama3-70B في التصنيفات وأصبح النموذج الكبير مفتوح المصدر الأفضل أداءً. يعد MMLU (فهم اللغة متعدد المهام الضخم) واحدًا من أكثر معايير تقييم النماذج الكبيرة تأثيرًا في الصناعة. ويغطي 57 مهمة بما في ذلك الرياضيات الأساسية وعلوم الكمبيوتر والقانون والتاريخ وما إلى ذلك، وهو مصمم لاختبار المعرفة العالمية وقدرات حل المشكلات في نماذج كبيرة. ومع ذلك، في التقييم الفعلي، غالبًا ما تفتقر نتائج النماذج المختلفة إلى الاتساق وقابلية المقارنة. ويرجع ذلك أساسًا إلى استخدام تقنية الكلمات السريعة غير القياسية والفشل في اعتماد أطر التقييم مفتوحة المصدر بشكل موحد.

QQ截图20240620111950.png

تلتزم HELM (إطار عمل شامل لتقييم نماذج الأساس) الذي اقترحه مركز أبحاث نماذج الأساس (CRFM) في جامعة ستانفورد بإنشاء طريقة تقييم شفافة وقابلة للتكرار. يعمل إطار عمل HELM على توحيد نتائج التقييم للنماذج المختلفة على MMLU وجعلها شفافة، وحل المشكلات الموجودة في تقييمات MMLU الحالية. على سبيل المثال، استخدم نفس الكلمات السريعة لجميع النماذج المشاركة، وقم بتزويد النماذج بنفس الأمثلة الخمسة في كل موضوع اختبار للتعلم الظرفي. أصدر بيرسي ليانج، مدير مركز أبحاث النماذج الأساسية بجامعة ستانفورد، مؤخرًا أحدث قائمة HELM MMLU على منصات التواصل الاجتماعي. تظهر القائمة أن نموذج Tongyi Qianwen مفتوح المصدر Qwen2-72B من Alibaba يحتل المرتبة الخامسة، في المرتبة الثانية بعد Claude3Opus وGPT-4o وGemini1.5pro وGPT-4، وهو النموذج الكبير مفتوح المصدر الأعلى تصنيفًا ويتمتع أيضًا بأفضل أداء. من النموذج الصيني الكبير. كانت سلسلة Tongyi Qianwen Qwen2 مفتوحة المصدر في أوائل يونيو 2024 وتحتوي على 5 نماذج للتدريب المسبق والتعليمات الدقيقة بأحجام مختلفة. حتى الآن، تم تنزيل نماذج سلسلة Qwen أكثر من 16 مليون مرة، مما يدل على شهرة واسعة وأداء قوي في الصناعة. لا تُظهر أحدث نتائج التقييم لـ HELM MMLU الأداء المتميز لـ Qwen2-72B في فهم اللغات متعددة المهام فحسب، بل تشير أيضًا إلى صعود النماذج الكبيرة في الصين في المنافسة العالمية لتكنولوجيا الذكاء الاصطناعي. ومع التقدم التكنولوجي المستمر، نتطلع إلى رؤية المزيد من النماذج الكبيرة المتميزة من الصين تظهر على الساحة الدولية في المستقبل.

لا يعكس الأداء المتميز لـ Qwen2-72B القوة التقنية القوية لشركة علي بابا في مجال الذكاء الاصطناعي فحسب، بل يضخ أيضًا زخمًا قويًا في تطوير النماذج الكبيرة في الصين. وأعتقد أنه في المستقبل، ستظهر المزيد من النماذج الصينية الكبيرة قوتها المتميزة على الساحة الدولية.