เมื่อเร็ว ๆ นี้ทีมสมองอัจฉริยะ 360 คนได้สร้างความก้าวหน้าครั้งสำคัญในด้านปัญญาประดิษฐ์ประสบความสำเร็จในการสร้างเอฟเฟกต์การเรียนรู้เสริมแรงของ Deepseek และเปิดตัวอย่างเป็นทางการในการอนุมานโอเพ่นซอร์ส Light-R1-14B-DS การเปิดตัวของโมเดลนี้เป็นความก้าวหน้าที่สำคัญในด้านการเรียนรู้การเสริมแรงโดยเฉพาะอย่างยิ่งในความสามารถในการใช้เหตุผลทางคณิตศาสตร์ Light-R1-14B-DS ไม่เพียง แต่เหนือกว่า Deepseek-R1-Distill-Llama-70B และ Deepseek-R1-Distill-Qwen-32B ในการแสดง แต่ยังกลายเป็นรุ่นแรกของอุตสาหกรรมเพื่อให้ได้ผลการเรียนรู้เสริมแรงในระดับพารามิเตอร์ 14B แสดงให้เห็นถึงความสามารถที่โดดเด่นใน TASKS ที่ซับซ้อน
ในการทดสอบเฉพาะแสง R1-14B-DS มีการปรับปรุงอย่างมีนัยสำคัญ เมื่อเทียบกับ Deepseek-R1-14B รุ่นนี้ทำงานได้ดีเป็นพิเศษในงานการแข่งขันทางคณิตศาสตร์ ในการทดสอบ AIME24 คะแนนเพิ่มขึ้น 4.3 คะแนนในขณะที่ AIME25 เพิ่มขึ้น 10 คะแนน นอกจากนี้ในงานการใช้เหตุผลทางคณิตศาสตร์ GPQA, Light-R1-14B-DS ได้คะแนนที่ยอดเยี่ยมที่ 61.7 ซึ่งเกินกว่ารุ่น 32B ส่วนใหญ่แสดงให้เห็นถึงความสามารถที่ทรงพลังในด้านการใช้เหตุผลทางคณิตศาสตร์
เพื่อให้บรรลุความก้าวหน้านี้ทีมสมองอัจฉริยะ 360 คนได้ใช้วิธีการฝึกอบรมที่เป็นนวัตกรรมสองวิธี ครั้งแรกคือหลักสูตร SFT (การปรับแต่งขั้นสูงภายใต้การดูแลขั้นสูง) ซึ่งช่วยให้แบบจำลองสามารถเปลี่ยนจากปัญหาทางคณิตศาสตร์ได้อย่างง่ายไปเป็นปัญหาที่ซับซ้อนผ่านการฝึกอบรมที่เป็นระยะซึ่งจะช่วยเพิ่มความสามารถในการใช้เหตุผลเชิงตรรกะ ประการที่สองคือการเรียนรู้การเสริมแรง (RL) ซึ่งเป็นครั้งแรกที่ได้นำไปใช้ในรูปแบบการอนุมานระดับ 14B ไม่เพียง แต่ปรับปรุงความแม่นยำของการใช้เหตุผลอย่างมีนัยสำคัญ แต่ยังทำให้มั่นใจได้ว่าการสูญเสียทักษะอื่น ๆ การรวมกันของวิธีการทั้งสองนี้ได้เปิดใช้งาน Light-R1-14B-DS เพื่อให้ได้การก้าวกระโดดเชิงคุณภาพในประสิทธิภาพ
รุ่นนี้ไม่เพียง แต่รวมถึงโมเดลเท่านั้น แต่ยังรวมถึงข้อมูล SFT โอเพนซอร์สรหัสและรายงานทางเทคนิคซึ่งจัดหาทรัพยากรที่มีค่าสำหรับอุตสาหกรรม ความสำเร็จนี้ไม่เพียง แต่เป็นความก้าวหน้าที่สำคัญในด้านการเรียนรู้การเสริมแรงของโมเดลขนาดเล็กและขนาดกลางเท่านั้น ด้วยแหล่งที่มาของทรัพยากรเหล่านี้ทีมสมองอัจฉริยะ 360 คนหวังที่จะส่งเสริมนักวิจัยและนักพัฒนาที่มีส่วนร่วมในการวิจัยในสาขานี้และส่งเสริมความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์
ที่อยู่โครงการ: https://github.com/qihoo360/light-r1
ที่อยู่รุ่น: https://huggingface.co/qihoo360/light-r1-14b-ds
ที่อยู่ข้อมูล: https://huggingface.co/datasets/qihoo360/light-r1-sftdata