최근 360 Intelligent Brain Team은 인공 지능 분야에서 큰 돌파구를 만들어 심해의 강화 학습 효과를 성공적으로 재현하고 공식적으로 오픈 소스 추론 모델 Light-14B-DS를 발표했습니다. 이 모델의 출시는 특히 수학적 추론 능력에서 강화 학습 분야에서 상당한 발전을 나타냅니다. Light-R1-14B-DS는 성능면에서 DeepSeek-R1-Distill-70B 및 DeepSeek-R1-Distill-Qwen-32B를 능가 할뿐만 아니라 14B 매개 변수 규모에 대한 강화 학습 효과를 달성하는 업계 최초의 모델이되어 복잡한 작업에서 미결제 기능을 보여줍니다.
특정 테스트에서 Light-R1-14B-D는 상당한 개선을 보여 주었다. DeepSeek-R1-14B와 비교할 때이 모델은 수학 경쟁 업무에서 특히 잘 작동합니다. AIME24 테스트에서 점수는 4.3 점 증가한 반면 AIME25에서는 10 점 증가했습니다. 또한 수학적 추론 작업 GPQA에서 Light-R1-14B-DS는 61.7의 우수한 점수를 얻었으며, 대부분의 32B 레벨 모델을 능가하여 수학적 추론 분야에서 강력한 능력을 완전히 보여주었습니다.
이러한 혁신을 달성하기 위해 360 Intelligent Brain Team은 두 가지 혁신적인 교육 방법을 채택했습니다. 첫 번째는 커리큘럼 SFT (Advanced Supervised Fine Tuning)이며,이를 통해 모델은 단계별 교육을 통해 간단한 수학적 문제에서 복잡한 문제로 점차 전환하여 논리적 추론 능력을 더욱 향상시킬 수 있습니다. 두 번째는 강화 학습 (RL)입니다. RL (Renforcement Learning)은 14B 수준의 추론 모델에 성공적으로 적용 된 첫 번째로 추론의 정확성을 크게 향상시킬뿐만 아니라 다른 기술의 기본 무한도를 보장합니다. 이 두 가지 방법의 조합은 경전 -14B-DS가 성능의 질적 도약을 달성 할 수있게 해주었다.
이 릴리스에는 모델 자체뿐만 아니라 오픈 소스 SFT 데이터, 코드 및 기술 보고서도 포함되어 업계에 유용한 리소스를 제공합니다. 이 성과는 중소형 모델의 강화 학습 분야에서 큰 진전을 나타내는 것뿐만 아니라 AI 추론 능력의 대중화와 개발을위한 견고한 기초를 제시합니다. 이러한 자원의 오픈 소스를 통해 360 Intelligent Brain Team은 더 많은 연구자와 개발자 가이 분야의 연구에 참여하도록 촉진하고 인공 지능 기술의 발전을 공동으로 홍보하기를 희망합니다.
프로젝트 주소 : https://github.com/qihoo360/light-r1
모델 주소 : https://huggingface.co/qihoo360/light-r1-14b-ds
데이터 주소 : https://huggingface.co/datasets/qihoo360/light-r1-sftdata