في الآونة الأخيرة ، حقق فريق الدماغ الذكي 360 اختراقًا كبيرًا في مجال الذكاء الاصطناعي ، حيث نجح في إعادة إنشاء تأثير التعلم المعزز لـ Deepseek ، وأصدر رسميًا نموذج الاستدلال المفتوح Light-R1-14B-DS. يمثل إصدار هذا النموذج تقدمًا كبيرًا في مجال تعلم التعزيز ، وخاصة في قدرة التفكير الرياضي. لا يتجاوز Light-R1-14B-DS فقط Deepseek-R1-Distill-Llama-70B و Deepseek-R1-Distill-QWEN-32B في الأداء ، ولكنه يصبح أيضًا أول نموذج للصناعة لتحقيق تأثيرات التعلم التعزيز على مقياس معلمات 14B ، مما يدل على قدراتها المعقدة في المهام المعقدة.
في اختبارات محددة ، أظهر Light-R1-14b-DS تحسنا كبيرًا. بالمقارنة مع Deepseek-R1-14b ، فإن هذا النموذج يعمل بشكل جيد بشكل خاص في مهام منافسة الرياضيات. في اختبار AIME24 ، زادت درجاتها بمقدار 4.3 نقطة ، بينما زادت في AIME25 بمقدار 10 نقاط. بالإضافة إلى ذلك ، في مهمة التفكير الرياضي GPQA ، حققت Light-R1-14B-DS درجة ممتازة قدرها 61.7 ، والتي تجاوزت معظم النماذج على مستوى 32B ، مما يدل تمامًا على قدراته القوية في مجال التفكير الرياضي.
لتحقيق هذا الاختراق ، اعتمد فريق الدماغ الذكي 360 طريقتين مبتكرين. الأول هو المناهج الدراسية SFT (ضبط دقيق خاضع للإشراف المتقدم) ، والذي يسمح للنموذج بالانتقال تدريجياً من المشكلات الرياضية البسيطة إلى المشكلات المعقدة من خلال التدريب التدريجي ، وبالتالي تعزيز قدرته على التفكير المنطقي. والثاني هو التعلم التعزيز (RL) ، وهي المرة الأولى التي يتم فيها تطبيقها بنجاح على نموذج الاستدلال على مستوى 14B ، ليس فقط تحسين دقة التفكير ، ولكن أيضًا ضمان الفقدان الأساسي للمهارات الأخرى. وقد مكن الجمع بين هاتين الطريقتين Light-R1-14b-DS من تحقيق قفزة نوعية في الأداء.
لا يتضمن هذا الإصدار النموذج نفسه فحسب ، بل يتضمن أيضًا بيانات SFT مفتوحة المصدر والرمز والتقارير الفنية ، مما يوفر موارد قيمة لهذه الصناعة. لا يمثل هذا الإنجاز تقدمًا كبيرًا في مجال التعلم التعزيز للنماذج الصغيرة والمتوسطة ، بل يضع أيضًا أساسًا متينًا لمزيد من التعميم وتطوير قدرات التفكير في الذكاء الاصطناعي. من خلال المصدر المفتوح لهذه الموارد ، يأمل فريق الدماغ الذكي 360 في الترويج لمزيد من الباحثين والمطورين للمشاركة في الأبحاث في هذا المجال والترويج بشكل مشترك لتقدم تكنولوجيا الذكاء الاصطناعي.
عنوان المشروع: https://github.com/qihoo360/light-r1
عنوان النموذج: https://huggingface.co/QIHOO360/Light-R1-14B-DS
عنوان البيانات: https://huggingface.co/Datasets/QIHOO360/Light-R1-SFTDATA