เมื่อวันที่ 24 กุมภาพันธ์ 2567 มีการพัฒนาที่สำคัญในสาขาปัญญาประดิษฐ์ รูปแบบการอนุมานขนาดกลาง TINY-R1-32B-PREVIEW ได้รับการพัฒนาร่วมกันโดยทีมสมองอัจฉริยะ 360 คนและมหาวิทยาลัยปักกิ่งได้รับการปล่อยตัวอย่างเป็นทางการ ด้วยปริมาณพารามิเตอร์เพียง 5% โมเดลที่เป็นนวัตกรรมนี้ประสบความสำเร็จในการเข้าใกล้ประสิทธิภาพการทำงานที่เต็มไปด้วยสุขภาพของ Deepseek-R1-671B เพื่อเปิดโอกาสใหม่สำหรับการให้เหตุผลที่มีประสิทธิภาพ
ในการทดสอบประสิทธิภาพ Tiny-R1-32B-Preview มีประสิทธิภาพที่น่าประทับใจ โดยเฉพาะอย่างยิ่งในสาขาคณิตศาสตร์แบบจำลองได้รับคะแนนที่ยอดเยี่ยม 78.1 ในการทบทวน AIME2024 ซึ่งอยู่ห่างจากคะแนน R1 79.8 คะแนนเพียง 1.7 คะแนนจาก 79.8 คะแนนของรุ่น R1 ดั้งเดิม ในสาขาการเขียนโปรแกรมและวิทยาศาสตร์แบบจำลองยังทำได้ดีบรรลุ 61.6 และ 65.0 คะแนนในการทดสอบ LiveCodeBench และ GPQA-Diamond ตามลำดับซึ่งเหนือกว่ารุ่นโอเพนซอร์ส 70B ที่ดีที่สุดในปัจจุบัน ความสำเร็จชุดนี้ไม่เพียง แต่พิสูจน์ให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมของ Tiny-R1-32B-Preview เท่านั้น แต่ยังได้รับการปรับปรุงอย่างมีประสิทธิภาพอย่างมีประสิทธิภาพโดยลดต้นทุนการอนุมานอย่างมีนัยสำคัญ

เบื้องหลังผลลัพธ์การพัฒนานี้คือกลยุทธ์ "การแบ่งและการรวมการรวมตัวกัน" ที่เป็นนวัตกรรมของทีมวิจัย กลยุทธ์นี้สร้างข้อมูลภาคสนามขนาดใหญ่ขึ้นอยู่กับ Deepseek-R1 และฝึกอบรมโมเดลมืออาชีพในสามสาขาแนวตั้งของคณิตศาสตร์การเขียนโปรแกรมและวิทยาศาสตร์ จากนั้นทีมวิจัยใช้เครื่องมือ Mergekit ของทีม Arcee สำหรับการรวมอัจฉริยะประสบความสำเร็จในการผ่านขีด จำกัด ประสิทธิภาพของรุ่นเดียวและบรรลุการเพิ่มประสิทธิภาพที่สมดุลของงานหลายงาน เส้นทางทางเทคนิคที่เป็นนวัตกรรมนี้ไม่เพียง แต่ปรับปรุงประสิทธิภาพโดยรวมของโมเดลอย่างมีนัยสำคัญ แต่ยังให้แนวคิดและทิศทางใหม่สำหรับการพัฒนาแบบจำลองการอนุมานในอนาคต
ทีมสมองอัจฉริยะ 360 คนและทีม R&D ร่วมกันของ Peking University โดยเฉพาะอย่างยิ่งเน้นว่าความสำเร็จของ Tiny-R1-32B-Preview นั้นแยกออกไม่ได้จากการสนับสนุนที่แข็งแกร่งของชุมชนโอเพ่นซอร์ส โมเดลนี้ได้รับประโยชน์อย่างเต็มที่จากเทคโนโลยีการกลั่น Deepseek-R1, Deepseek-R1-Distill-32B การฝึกอบรมที่เพิ่มขึ้นและเทคโนโลยีฟิวชั่นแบบจำลองขั้นสูง การสะสมความสำเร็จทางเทคนิคเหล่านี้ได้วางรากฐานที่มั่นคงสำหรับการพัฒนาแบบจำลอง
เพื่อส่งเสริมความมีส่วนร่วมของเทคโนโลยีทีม R&D สัญญาว่าจะเปิดเผยคลังสินค้าแบบจำลองที่สมบูรณ์รวมถึงรายงานทางเทคนิคโดยละเอียดรหัสการฝึกอบรมและชุดข้อมูลบางชุด ในปัจจุบันคลังสินค้ารุ่นได้รับการเปิดตัวอย่างเป็นทางการบนแพลตฟอร์ม Hugging Face และที่อยู่การเข้าถึงคือ https://huggingface.co/qihoo360/tinyr1-32b-preview ความคิดริเริ่มแบบเปิดนี้จะให้ทรัพยากรที่มีค่าแก่ชุมชนการวิจัยปัญญาประดิษฐ์และส่งเสริมการพัฒนาเทคโนโลยีที่เกี่ยวข้องต่อไป