Recentemente, a 360 Equipe Brain Intelligent fez um grande avanço no campo da inteligência artificial, recriando com sucesso o efeito de aprendizado de reforço da Deepseek e lançou oficialmente o modelo de inferência de código aberto Light-R1-14B-DS. A liberação deste modelo marca um avanço significativo no campo da aprendizagem de reforço, especialmente na capacidade de raciocínio matemático. O Light-R1-14B-DS não apenas supera o Deepseek-R1-Distill-LLAMA-70B e o Deepseek-R1-Distill-Qwen-32b no desempenho, mas também se torna o primeiro modelo do setor para alcançar efeitos de aprendizado de reforço na escala dos parâmetros 14B, demonstrando seus recursos de destaque em tarefas complexas.
Em testes específicos, o Light-R1-14B-DS mostrou uma melhora significativa. Comparado com o DeepSeek-R1-14B, esse modelo tem um desempenho particularmente bem nas tarefas de competição de matemática. No teste AIME24, sua pontuação aumentou 4,3 pontos, enquanto no AIME25 aumentou 10 pontos. Além disso, na tarefa de raciocínio matemático GPQA, o Light-R1-14B-DS alcançou uma excelente pontuação de 61,7, que até superou a maioria dos modelos de 32 bilhões, demonstrando totalmente suas habilidades poderosas no campo do raciocínio matemático.
Para alcançar esse avanço, a 360 Intelligent Brain Team adotou dois métodos inovadores de treinamento. O primeiro é o currículo SFT (ajuste fino avançado supervisionado), que permite que o modelo faça a transição gradualmente de problemas matemáticos simples para problemas complexos por meio de treinamento em fases, aumentando ainda mais sua capacidade de raciocínio lógico. O segundo é o aprendizado de reforço (RL), que é a primeira vez que é aplicado com sucesso em um modelo de inferência no nível de 14B, não apenas melhorando significativamente a precisão do raciocínio, mas também garantindo a falta de perda básica de outras habilidades. A combinação desses dois métodos permitiu que o Light-R1-14B-DS obtenha um salto qualitativo no desempenho.
Esta versão não inclui apenas o modelo em si, mas também os dados, código e relatórios técnicos da SFT de código aberto, fornecendo recursos valiosos para o setor. Essa conquista não apenas marca um grande progresso no campo de aprendizado de reforço de modelos pequenos e médios, mas também estabelece uma base sólida para a popularização e desenvolvimento de recursos de raciocínio de IA. Através de código aberto desses recursos, a 360 Intelligent Brain Team espera promover mais pesquisadores e desenvolvedores para participar de pesquisas nesse campo e promover em conjunto o avanço da tecnologia de inteligência artificial.
Endereço do projeto: https://github.com/qihoo360/light-r1
Endereço do modelo: https://huggingface.co/qihoo360/light-r1-14b-ds
Endereço de dados: https://huggingface.co/datasets/qihoo360/light-r1-sftdata