360 Tim Otak Cerdas Berhasil Mereproduksi Efek Pembelajaran Penguatan Deepseek dan merilis model open source Light-R1-14B-DS-Artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-05-19 15:00:04

Baru-baru ini, tim otak cerdas 360 telah membuat terobosan besar di bidang kecerdasan buatan, berhasil menciptakan efek pembelajaran penguatan Deepseek, dan secara resmi merilis model inferensi open source Light-R1-14B-DS. Rilis model ini menandai kemajuan yang signifikan di bidang pembelajaran penguatan, terutama dalam kemampuan penalaran matematika. Light-R1-14B-DS tidak hanya melampaui Deepseek-R1-Distill-Llama-70B dan Deepseek-R1-Distill-Qwen-32B dalam kinerja, tetapi juga menjadi model pertama industri untuk mencapai efek pembelajaran penguatan pada skala parameter 14B, menunjukkan kemampuannya yang luar biasa dalam tag-kompleks.

Dalam tes khusus, Light-R1-14B-DS menunjukkan peningkatan yang signifikan. Dibandingkan dengan Deepseek-R1-14b, model ini berkinerja sangat baik dalam tugas-tugas kompetisi matematika. Dalam tes AIME24, skornya meningkat 4,3 poin, sedangkan di AIME25 meningkat 10 poin. Selain itu, pada tugas penalaran matematika GPQA, Light-R1-14B-DS mencapai skor yang sangat baik dari 61,7, yang bahkan melampaui sebagian besar model tingkat 32B, sepenuhnya menunjukkan kemampuan kuatnya di bidang penalaran matematika.

Untuk mencapai terobosan ini, tim otak cerdas 360 mengadopsi dua metode pelatihan inovatif. Yang pertama adalah kurikulum SFT (fine tuning yang diawasi lanjutan), yang memungkinkan model untuk secara bertahap beralih dari masalah matematika sederhana ke masalah kompleks melalui pelatihan bertahap, sehingga lebih lanjut meningkatkan kemampuan penalaran logisnya. Yang kedua adalah Penguatan Pembelajaran (RL), yang merupakan pertama kalinya ia berhasil diterapkan pada model inferensi tingkat 14B, tidak hanya secara signifikan meningkatkan keakuratan penalaran, tetapi juga memastikan kerugian dasar keterampilan lain. Kombinasi kedua metode ini telah memungkinkan Light-R1-14B-DS untuk mencapai lompatan kualitatif dalam kinerja.

Rilis ini tidak hanya mencakup model itu sendiri, tetapi juga data SFT open source, kode dan laporan teknis, menyediakan sumber daya yang berharga bagi industri. Prestasi ini tidak hanya menandai kemajuan besar dalam bidang pembelajaran penguatan model kecil dan menengah, tetapi juga meletakkan dasar yang kuat untuk mempopulerkan dan pengembangan kemampuan penalaran AI lebih lanjut. Melalui sumber terbuka dari sumber daya ini, 360 tim otak cerdas berharap untuk mempromosikan lebih banyak peneliti dan pengembang untuk berpartisipasi dalam penelitian di bidang ini dan bersama -sama mempromosikan kemajuan teknologi kecerdasan buatan.

Alamat proyek: https://github.com/qihoo360/light-r1

Alamat model: https://huggingface.co/qihoo360/light-r1-14b-ds

Alamat data: https://huggingface.co/datasets/qihoo360/light-r1-sftdata